CM2: Обучение с подкреплением с использованием контрольных списков в многоходовом и многошаговом агентном использовании инструментов

•

Оригинальный автор:Zhen Zhang et al.

•

12 февраля 2026 г.

CM2: Обучение с подкреплением с использованием контрольных списков в многоходовом и многошаговом агентном использовании инструментов

Изображение создано Gemini AI

Исследователи представили CM2 — фреймворк для обучения с подкреплением, разработанный для многоходовых взаимодействий с ИИ-агентами. CM2 заменяет традиционные проверяемые награды на критерии, основанные на контрольных списках, что позволяет проводить более стабильные оценки производительности. Обученный в симулированной среде, CM2 продемонстрировал значительные улучшения по сравнению с существующими моделями, достигнув более высоких результатов на таких бенчмарках, как tau^-Bench и ToolSandbox. Этот подход предлагает масштабируемый метод повышения эффективности использования инструментов ИИ без необходимости в обширной инженерной доработке систем наград. Код доступен для публичного использования на GitHub.

CM2: Новый фреймворк для обучения с подкреплением в многоходовом использовании инструментов

Исследователи представили CM2, фреймворк для обучения с подкреплением (RL), предназначенный для улучшения производительности AI-агентов в многоходовых взаимодействиях и использовании инструментов. Этот подход решает критически важные проблемы в RL, особенно сложности создания и поддержания исполняемых инструментальных сред.

Награды и критерии оценки чек-листа

CM2 заменяет традиционные награды за результаты на награды чек-листа, что позволяет систематически оценивать производительность агентов. Он декомпозирует предполагаемое поведение на подробные бинарные критерии, превращая оценки производительности в стабильные решения в стиле классификации. Фреймворк использует разреженное распределение наград, сохраняя при этом плотные критерии оценки.

Результаты производительности

В тестах CM2 продемонстрировал значительные улучшения по сравнению с техниками тонкой настройки под надзором. Используя базовую модель с 8 миллиардами параметров и набор данных RL из 8,000 примеров, CM2 достиг:

Увеличения на 8 пунктов по оценке tau^-Bench.
Улучшения на 10 пунктов по бенчмарку BFCL-V4.
Прибавки на 12 пунктов по ToolSandbox.

Эти результаты указывают на превосходную производительность по сравнению с традиционными методами и ставят CM2 наравне с, или превышающим, возможности аналогичных моделей с открытым исходным кодом.

Фреймворк CM2 доступен через сообщество с открытым исходным кодом: CM2-RLCR-Tool-Agent на GitHub.

Связанные темы:

Обучение с подкреплениемчек-листовые вознаграждениямногоходовое использование инструментовмасштабируемое имитированное окружениеоптимизация агентов

📰 Первоисточник: https://arxiv.org/abs/2602.12268v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit