CM2 : Apprentissage par renforcement avec des récompenses basées sur des listes de contrôle pour l'utilisation d'outils agentiques sur plusieurs tours et étapes.

•

Auteur original:Zhen Zhang et al.

•

12 février 2026

CM2 : Apprentissage par renforcement avec des récompenses basées sur des listes de contrôle pour l'utilisation d'outils agentiques sur plusieurs tours et étapes.

Image générée par Gemini AI

Des chercheurs ont présenté CM2, un cadre d'apprentissage par renforcement conçu pour les interactions multi-tours avec des agents d'IA. CM2 remplace les récompenses vérifiables traditionnelles par des critères basés sur des listes de contrôle, permettant ainsi des évaluations de performance plus stables. Entraîné dans un environnement simulé, CM2 a montré des améliorations significatives par rapport aux modèles existants, atteignant des scores supérieurs sur des benchmarks tels que tau^-Bench et ToolSandbox. Cette approche propose une méthode évolutive pour améliorer l'utilisation des outils d'IA sans nécessiter d'ingénierie complexe des systèmes de récompense. Le code est disponible pour un usage public sur GitHub.

CM2 : Un Nouveau Cadre pour l'Apprentissage par Renforcement dans l'Utilisation d'Outils à Multi-Tours

Des chercheurs ont introduit CM2, un cadre d'apprentissage par renforcement (RL) conçu pour améliorer la performance des agents IA lors d'interactions à multi-tours et d'utilisation d'outils. Cette approche répond à des défis critiques en RL, en particulier les complexités liées à la création et à la maintenance d'environnements d'outils exécutables.

Récompenses de Liste de Contrôle et Critères d'Évaluation

CM2 remplace les récompenses de résultats conventionnelles par des récompenses de liste de contrôle, permettant une évaluation systématique des performances des agents. Il décompose le comportement prévu en critères binaires détaillés, transformant les évaluations de performance en décisions stables de type classification. Le cadre utilise une attribution de récompense parcimonieuse tout en maintenant des critères d'évaluation denses.

Résultats de Performance

Lors des tests, CM2 a démontré des améliorations substantielles par rapport aux techniques de fine-tuning supervisé. En utilisant un modèle de base de 8 milliards de paramètres et un ensemble de données RL de 8 000 exemples, CM2 a atteint :

Une augmentation de 8 points sur l'évaluation tau^-Bench.
Une amélioration de 10 points sur le benchmark BFCL-V4.
Un gain de 12 points sur ToolSandbox.

Ces résultats indiquent une performance supérieure par rapport aux méthodes traditionnelles et positionnent CM2 au même niveau, voire au-delà, des capacités de modèles open-source de taille similaire.

Le cadre de CM2 est accessible via la communauté open-source : CM2-RLCR-Tool-Agent sur GitHub.

Sujets connexes :

apprentissage par renforcementrécompenses par checklistoutils agentiquesenvironnement d'outils simuléméthode évolutive

📰 Source originale : https://arxiv.org/abs/2602.12268v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit