CM2: Обучение с подкреплением с использованием контрольных списков в многоходовом и многошаговом агентном использовании инструментов

Изображение создано Gemini AI
Исследователи представили CM2 — фреймворк для обучения с подкреплением, разработанный для многоходовых взаимодействий с ИИ-агентами. CM2 заменяет традиционные проверяемые награды на критерии, основанные на контрольных списках, что позволяет проводить более стабильные оценки производительности. Обученный в симулированной среде, CM2 продемонстрировал значительные улучшения по сравнению с существующими моделями, достигнув более высоких результатов на таких бенчмарках, как tau^-Bench и ToolSandbox. Этот подход предлагает масштабируемый метод повышения эффективности использования инструментов ИИ без необходимости в обширной инженерной доработке систем наград. Код доступен для публичного использования на GitHub.
CM2: Новый фреймворк для обучения с подкреплением в многоходовом использовании инструментов
Исследователи представили CM2, фреймворк для обучения с подкреплением (RL), предназначенный для улучшения производительности AI-агентов в многоходовых взаимодействиях и использовании инструментов. Этот подход решает критически важные проблемы в RL, особенно сложности создания и поддержания исполняемых инструментальных сред.
Награды и критерии оценки чек-листа
CM2 заменяет традиционные награды за результаты на награды чек-листа, что позволяет систематически оценивать производительность агентов. Он декомпозирует предполагаемое поведение на подробные бинарные критерии, превращая оценки производительности в стабильные решения в стиле классификации. Фреймворк использует разреженное распределение наград, сохраняя при этом плотные критерии оценки.
Результаты производительности
В тестах CM2 продемонстрировал значительные улучшения по сравнению с техниками тонкой настройки под надзором. Используя базовую модель с 8 миллиардами параметров и набор данных RL из 8,000 примеров, CM2 достиг:
- Увеличения на 8 пунктов по оценке tau^-Bench.
- Улучшения на 10 пунктов по бенчмарку BFCL-V4.
- Прибавки на 12 пунктов по ToolSandbox.
Эти результаты указывают на превосходную производительность по сравнению с традиционными методами и ставят CM2 наравне с, или превышающим, возможности аналогичных моделей с открытым исходным кодом.
Фреймворк CM2 доступен через сообщество с открытым исходным кодом: CM2-RLCR-Tool-Agent на GitHub.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.12268v1
Все права и авторство принадлежат первоначальному издателю.