CM2：采用清单奖励的强化学习用于多轮和多步骤的自主工具使用

•

原作者:Zhen Zhang et al.

•

2026年2月12日

Gemini AI生成的图像

研究人员推出了CM2，这是一种专为与AI代理进行多轮交互而设计的强化学习框架。CM2用基于检查表的标准取代了传统的可验证奖励，从而实现了更稳定的性能评估。在模拟环境中训练的CM2在现有模型上表现出显著的改进，在tau^-Bench和ToolSandbox等基准测试中取得了更高的分数。这种方法提供了一种可扩展的方式来提升AI工具的使用效率，而无需对奖励系统进行大量的工程改造。相关代码已在GitHub上公开供公众使用。

CM2：用于多回合工具使用的强化学习新框架

研究人员推出了CM2，这是一种旨在提高AI代理在多回合交互和工具使用中的表现的强化学习（RL）框架。该方法解决了强化学习中的关键挑战，特别是在构建和维护可执行工具环境方面的复杂性。

检查表奖励和评估标准

CM2用检查表奖励替代了传统的结果奖励，从而允许对代理性能进行系统评估。它将预期行为分解为详细的二元标准，将性能评估转化为稳定的分类风格决策。该框架采用稀疏奖励分配，同时保持密集的评估标准。

性能结果

在测试中，CM2显示出相较于监督微调技术的显著改进。使用一个拥有80亿参数的基础模型和一个包含8,000个示例的强化学习数据集，CM2达到了：

在tau^-Bench评估中提高了8分。
在BFCL-V4基准测试中改善了10分。
在ToolSandbox中提升了12分。

这些结果表明，与传统方法相比，CM2表现出色，并且与同样规模的开源模型的能力相当，甚至超过了它们。

CM2的框架可通过开源社区获取：GitHub上的CM2-RLCR-Tool-Agent。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

CM2：采用清单奖励的强化学习用于多轮和多步骤的自主工具使用

CM2：用于多回合工具使用的强化学习新框架

检查表奖励和评估标准

性能结果

相关主题：

分享此文章