CM2: Aprendizaje por Refuerzo con Recompensas de Lista de Verificación para el Uso de Herramientas Agénticas en Múltiples Pasos y Turnos

•

Autor original:Zhen Zhang et al.

•

12 de febrero de 2026

CM2: Aprendizaje por Refuerzo con Recompensas de Lista de Verificación para el Uso de Herramientas Agénticas en Múltiples Pasos y Turnos

Imagen generada por Gemini AI

Investigadores han presentado CM2, un marco de aprendizaje por refuerzo diseñado para interacciones de múltiples turnos con agentes de inteligencia artificial. CM2 reemplaza las recompensas verificables tradicionales por criterios basados en listas de verificación, lo que permite evaluaciones de rendimiento más estables. Entrenado en un entorno simulado, CM2 mostró mejoras significativas en comparación con modelos existentes, logrando puntuaciones más altas en benchmarks como tau^-Bench y ToolSandbox. Este enfoque ofrece un método escalable para mejorar el uso de herramientas de IA sin necesidad de una ingeniería extensiva en los sistemas de recompensas. El código está disponible para uso público en GitHub.

CM2: Un Nuevo Marco para el Aprendizaje por Refuerzo en el Uso de Herramientas en Múltiples Turnos

Investigadores han presentado CM2, un marco de aprendizaje por refuerzo (RL) diseñado para mejorar el rendimiento de los agentes de IA en interacciones de múltiples turnos y el uso de herramientas. Este enfoque aborda desafíos críticos en el RL, particularmente las complejidades de construir y mantener entornos de herramientas ejecutables.

Recompensas de Lista de Verificación y Criterios de Evaluación

CM2 reemplaza las recompensas de resultados convencionales por recompensas de lista de verificación, permitiendo una evaluación sistemática del rendimiento del agente. Descompone el comportamiento previsto en criterios binarios detallados, transformando las evaluaciones de rendimiento en decisiones estables de estilo clasificatorio. El marco emplea una asignación de recompensas escasa mientras mantiene criterios de evaluación densos.

Resultados de Rendimiento

En las pruebas, CM2 demostró mejoras sustanciales sobre técnicas de ajuste fino supervisado. Utilizando un modelo base de 8 mil millones de parámetros y un conjunto de datos de RL de 8,000 ejemplos, CM2 logró:

Un aumento de 8 puntos en la evaluación tau^-Bench.
Una mejora de 10 puntos en el benchmark BFCL-V4.
Una ganancia de 12 puntos en ToolSandbox.

Estos resultados indican un rendimiento superior en comparación con métodos tradicionales y posicionan a CM2 al mismo nivel o superando las capacidades de modelos de código abierto de tamaño similar.

El marco de CM2 es accesible a través de la comunidad de código abierto: CM2-RLCR-Tool-Agent en GitHub.

Temas relacionados:

Aprendizaje por refuerzoCM2recompensas de lista de verificaciónherramientas externasagentes de inteligencia artificial.

📰 Fuente original: https://arxiv.org/abs/2602.12268v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit