CM2: Verstärkendes Lernen mit Checklisten-Belohnungen für mehrstufige und mehrschrittige agentische Werkzeugnutzung

•

Originalautor:Zhen Zhang et al.

•

12. Februar 2026

CM2: Verstärkendes Lernen mit Checklisten-Belohnungen für mehrstufige und mehrschrittige agentische Werkzeugnutzung

Von Gemini AI generiertes Bild

Forscher haben CM2 vorgestellt, ein Framework für Reinforcement Learning, das für mehrstufige Interaktionen mit KI-Agenten entwickelt wurde. CM2 ersetzt herkömmliche überprüfbare Belohnungen durch checklistenbasierte Kriterien, was stabilere Leistungseinschätzungen ermöglicht. In einer simulierten Umgebung trainiert, zeigte CM2 signifikante Verbesserungen im Vergleich zu bestehenden Modellen und erzielte höhere Punktzahlen bei Benchmarks wie tau^-Bench und ToolSandbox. Dieser Ansatz bietet eine skalierbare Methode zur Verbesserung der Nutzung von KI-Tools, ohne dass umfangreiche Ingenieureingriffe in die Belohnungssysteme erforderlich sind. Der Code steht der Öffentlichkeit auf GitHub zur Verfügung.

CM2: Ein neues Framework für Reinforcement Learning bei Mehrfachnutzung von Werkzeugen

Forscher haben CM2 eingeführt, ein Reinforcement Learning (RL) Framework, das darauf abzielt, die Leistung von KI-Agenten in Mehrfachinteraktionen und bei der Nutzung von Werkzeugen zu verbessern. Dieser Ansatz adressiert wichtige Herausforderungen im RL, insbesondere die Komplexität beim Aufbau und der Wartung ausführbarer Werkzeugumgebungen.

Checklistenbelohnungen und Bewertungskriterien

CM2 ersetzt die herkömmlichen Ergebnisbelohnungen durch Checklistenbelohnungen, die eine systematische Bewertung der Agentenleistung ermöglichen. Es zerlegt das beabsichtigte Verhalten in detaillierte binäre Kriterien und transformiert Leistungsbewertungen in stabile Entscheidungen im Klassifikationsstil. Das Framework verwendet spärliche Belohnungszuweisungen, während es dichte Bewertungskriterien aufrechterhält.

Leistungsresultate

In Tests zeigte CM2 erhebliche Verbesserungen im Vergleich zu überwachten Feinabstimmungstechniken. Mit einem Basis-Modell mit 8 Milliarden Parametern und einem RL-Datensatz mit 8.000 Beispielen erreichte CM2:

Eine Steigerung um 8 Punkte bei der tau^-Bench-Bewertung.
Eine Verbesserung um 10 Punkte beim BFCL-V4-Benchmark.
Ein Gewinn von 12 Punkten auf ToolSandbox.

Diese Ergebnisse deuten auf eine überlegene Leistung im Vergleich zu traditionellen Methoden hin und positionieren CM2 gleichwertig oder über den Fähigkeiten ähnlich großer Open-Source-Modelle.

Das Framework von CM2 ist über die Open-Source-Community zugänglich: CM2-RLCR-Tool-Agent auf GitHub.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

CM2: Verstärkendes Lernen mit Checklisten-Belohnungen für mehrstufige und mehrschrittige agentische Werkzeugnutzung

CM2: Ein neues Framework für Reinforcement Learning bei Mehrfachnutzung von Werkzeugen

Checklistenbelohnungen und Bewertungskriterien

Leistungsresultate

Verwandte Themen:

Artikel teilen