CM2: Aprendizado por Reforço com Recompensas de Lista de Verificação para Uso de Ferramentas Agentes em Múltiplas Etapas e Turnos

•

Autor original:Zhen Zhang et al.

•

12 de fevereiro de 2026

CM2: Aprendizado por Reforço com Recompensas de Lista de Verificação para Uso de Ferramentas Agentes em Múltiplas Etapas e Turnos

Imagem gerada por Gemini AI

Pesquisadores apresentaram o CM2, uma estrutura de aprendizado por reforço projetada para interações de múltiplas etapas com agentes de IA. O CM2 substitui as recompensas verificáveis tradicionais por critérios baseados em listas de verificação, permitindo avaliações de desempenho mais estáveis. Treinado em um ambiente simulado, o CM2 demonstrou melhorias significativas em relação a modelos existentes, alcançando pontuações mais altas em benchmarks como tau^-Bench e ToolSandbox. Essa abordagem oferece um método escalável para aprimorar o uso de ferramentas de IA, sem a necessidade de engenharia extensiva nos sistemas de recompensas. O código está disponível para uso público no GitHub.

CM2: Uma Nova Estrutura para Aprendizado por Reforço em Uso de Ferramentas com Múltiplas Interações

Pesquisadores apresentaram o CM2, uma estrutura de aprendizado por reforço (RL) projetada para aprimorar o desempenho de agentes de IA em interações de múltiplas turnos e uso de ferramentas. Essa abordagem aborda desafios críticos no RL, particularmente as complexidades de construir e manter ambientes de ferramentas executáveis.

Recompensas de Checklist e Critérios de Avaliação

O CM2 substitui as recompensas de resultado convencionais por recompensas de checklist, permitindo uma avaliação sistemática do desempenho do agente. Ele decompõe o comportamento pretendido em critérios binários detalhados, transformando as avaliações de desempenho em decisões estáveis, no estilo de classificação. A estrutura emprega atribuição de recompensas escassas enquanto mantém critérios de avaliação densos.

Resultados de Desempenho

Nos testes, o CM2 demonstrou melhorias substanciais em relação às técnicas de ajuste fino supervisionado. Usando um modelo base de 8 bilhões de parâmetros e um conjunto de dados RL de 8.000 exemplos, o CM2 alcançou:

Um aumento de 8 pontos na avaliação tau^-Bench.
Uma melhoria de 10 pontos no benchmark BFCL-V4.
Um ganho de 12 pontos no ToolSandbox.

Esses resultados indicam um desempenho superior em comparação com métodos tradicionais e posicionam o CM2 em pé de igualdade, ou superando, as capacidades de modelos de código aberto de tamanho semelhante.

A estrutura do CM2 está acessível através da comunidade de código aberto: CM2-RLCR-Tool-Agent no GitHub.

Tópicos relacionados:

CM2Aprendizado por ReforçoRecompensas de Lista de VerificaçãoMúltiplas InteraçõesAgentes de IA

📰 Fonte original: https://arxiv.org/abs/2602.12268v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit