CM2: Apprendimento per rinforzo con ricompense a lista di controllo per l'uso di strumenti agentici in più turni e più fasi

•

Autore originale:Zhen Zhang et al.

•

12 febbraio 2026

CM2: Apprendimento per rinforzo con ricompense a lista di controllo per l'uso di strumenti agentici in più turni e più fasi

Immagine generata da Gemini AI

I ricercatori hanno presentato CM2, un framework di apprendimento per rinforzo progettato per interazioni multi-turno con agenti AI. CM2 sostituisce i tradizionali sistemi di ricompensa verificabili con criteri basati su checklist, permettendo valutazioni delle prestazioni più stabili. Addestrato in un ambiente simulato, CM2 ha mostrato miglioramenti significativi rispetto ai modelli esistenti, raggiungendo punteggi più elevati in benchmark come tau^-Bench e ToolSandbox. Questo approccio offre un metodo scalabile per migliorare l'uso degli strumenti AI senza la necessità di ingegneria complessa sui sistemi di ricompensa. Il codice è disponibile per l'uso pubblico su GitHub.

CM2: Un Nuovo Framework per l'Apprendimento per Rinforzo nell'Uso di Strumenti Multi-Turno

I ricercatori hanno introdotto CM2, un framework di apprendimento per rinforzo (RL) progettato per migliorare le prestazioni degli agenti AI nelle interazioni multi-turno e nell'uso di strumenti. Questo approccio affronta sfide critiche nel RL, in particolare le complessità di costruire e mantenere ambienti di strumenti eseguibili.

Ricompense e Criteri di Valutazione

CM2 sostituisce le tradizionali ricompense basate sui risultati con ricompense sotto forma di checklist, consentendo una valutazione sistematica delle prestazioni degli agenti. Decomprime il comportamento previsto in criteri binari dettagliati, trasformando le valutazioni delle prestazioni in decisioni stabili di tipo classificatorio. Il framework impiega un'assegnazione di ricompense sparse mantenendo criteri di valutazione densi.

Risultati delle Prestazioni

Nei test, CM2 ha dimostrato miglioramenti sostanziali rispetto alle tecniche di affinamento supervisionato. Utilizzando un modello base con 8 miliardi di parametri e un dataset RL di 8.000 esempi, CM2 ha raggiunto:

Un aumento di 8 punti nella valutazione tau^-Bench.
Un miglioramento di 10 punti nel benchmark BFCL-V4.
Un guadagno di 12 punti su ToolSandbox.

Questi risultati indicano prestazioni superiori rispetto ai metodi tradizionali e posizionano CM2 alla pari con, o superiore, alle capacità di modelli open-source di dimensioni simili.

Il framework di CM2 è accessibile attraverso la comunità open-source: CM2-RLCR-Tool-Agent su GitHub.

Argomenti correlati:

apprendimento per rinforzoricompense a checkliststrumenti agenticiCM2ambiente di strumenti simulato

📰 Fonte originale: https://arxiv.org/abs/2602.12268v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit