CM2:采用清单奖励的强化学习用于多轮和多步骤的自主工具使用

Gemini AI生成的图像
研究人员推出了CM2,这是一种专为与AI代理进行多轮交互而设计的强化学习框架。CM2用基于检查表的标准取代了传统的可验证奖励,从而实现了更稳定的性能评估。在模拟环境中训练的CM2在现有模型上表现出显著的改进,在tau^-Bench和ToolSandbox等基准测试中取得了更高的分数。这种方法提供了一种可扩展的方式来提升AI工具的使用效率,而无需对奖励系统进行大量的工程改造。相关代码已在GitHub上公开供公众使用。
CM2:用于多回合工具使用的强化学习新框架
研究人员推出了CM2,这是一种旨在提高AI代理在多回合交互和工具使用中的表现的强化学习(RL)框架。该方法解决了强化学习中的关键挑战,特别是在构建和维护可执行工具环境方面的复杂性。
检查表奖励和评估标准
CM2用检查表奖励替代了传统的结果奖励,从而允许对代理性能进行系统评估。它将预期行为分解为详细的二元标准,将性能评估转化为稳定的分类风格决策。该框架采用稀疏奖励分配,同时保持密集的评估标准。
性能结果
在测试中,CM2显示出相较于监督微调技术的显著改进。使用一个拥有80亿参数的基础模型和一个包含8,000个示例的强化学习数据集,CM2达到了:
- 在tau^-Bench评估中提高了8分。
- 在BFCL-V4基准测试中改善了10分。
- 在ToolSandbox中提升了12分。
这些结果表明,与传统方法相比,CM2表现出色,并且与同样规模的开源模型的能力相当,甚至超过了它们。
CM2的框架可通过开源社区获取:GitHub上的CM2-RLCR-Tool-Agent。
相关主题:
CM2强化学习检查清单奖励多轮多步自主工具稀疏奖励分配
📰 原始来源: https://arxiv.org/abs/2602.12268v1
所有权利和署名均属于原出版商。