CM2 : Apprentissage par renforcement avec des récompenses basées sur des listes de contrôle pour l'utilisation d'outils agentiques sur plusieurs tours et étapes.

Image générée par Gemini AI
Des chercheurs ont présenté CM2, un cadre d'apprentissage par renforcement conçu pour les interactions multi-tours avec des agents d'IA. CM2 remplace les récompenses vérifiables traditionnelles par des critères basés sur des listes de contrôle, permettant ainsi des évaluations de performance plus stables. Entraîné dans un environnement simulé, CM2 a montré des améliorations significatives par rapport aux modèles existants, atteignant des scores supérieurs sur des benchmarks tels que tau^-Bench et ToolSandbox. Cette approche propose une méthode évolutive pour améliorer l'utilisation des outils d'IA sans nécessiter d'ingénierie complexe des systèmes de récompense. Le code est disponible pour un usage public sur GitHub.
CM2 : Un Nouveau Cadre pour l'Apprentissage par Renforcement dans l'Utilisation d'Outils à Multi-Tours
Des chercheurs ont introduit CM2, un cadre d'apprentissage par renforcement (RL) conçu pour améliorer la performance des agents IA lors d'interactions à multi-tours et d'utilisation d'outils. Cette approche répond à des défis critiques en RL, en particulier les complexités liées à la création et à la maintenance d'environnements d'outils exécutables.
Récompenses de Liste de Contrôle et Critères d'Évaluation
CM2 remplace les récompenses de résultats conventionnelles par des récompenses de liste de contrôle, permettant une évaluation systématique des performances des agents. Il décompose le comportement prévu en critères binaires détaillés, transformant les évaluations de performance en décisions stables de type classification. Le cadre utilise une attribution de récompense parcimonieuse tout en maintenant des critères d'évaluation denses.
Résultats de Performance
Lors des tests, CM2 a démontré des améliorations substantielles par rapport aux techniques de fine-tuning supervisé. En utilisant un modèle de base de 8 milliards de paramètres et un ensemble de données RL de 8 000 exemples, CM2 a atteint :
- Une augmentation de 8 points sur l'évaluation tau^-Bench.
- Une amélioration de 10 points sur le benchmark BFCL-V4.
- Un gain de 12 points sur ToolSandbox.
Ces résultats indiquent une performance supérieure par rapport aux méthodes traditionnelles et positionnent CM2 au même niveau, voire au-delà, des capacités de modèles open-source de taille similaire.
Le cadre de CM2 est accessible via la communauté open-source : CM2-RLCR-Tool-Agent sur GitHub.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.12268v1
Tous les droits et crédits appartiennent à l'éditeur original.