CM2: Aprendizado por Reforço com Recompensas de Lista de Verificação para Uso de Ferramentas Agentes em Múltiplas Etapas e Turnos

Imagem gerada por Gemini AI
Pesquisadores apresentaram o CM2, uma estrutura de aprendizado por reforço projetada para interações de múltiplas etapas com agentes de IA. O CM2 substitui as recompensas verificáveis tradicionais por critérios baseados em listas de verificação, permitindo avaliações de desempenho mais estáveis. Treinado em um ambiente simulado, o CM2 demonstrou melhorias significativas em relação a modelos existentes, alcançando pontuações mais altas em benchmarks como tau^-Bench e ToolSandbox. Essa abordagem oferece um método escalável para aprimorar o uso de ferramentas de IA, sem a necessidade de engenharia extensiva nos sistemas de recompensas. O código está disponível para uso público no GitHub.
CM2: Uma Nova Estrutura para Aprendizado por Reforço em Uso de Ferramentas com Múltiplas Interações
Pesquisadores apresentaram o CM2, uma estrutura de aprendizado por reforço (RL) projetada para aprimorar o desempenho de agentes de IA em interações de múltiplas turnos e uso de ferramentas. Essa abordagem aborda desafios críticos no RL, particularmente as complexidades de construir e manter ambientes de ferramentas executáveis.
Recompensas de Checklist e Critérios de Avaliação
O CM2 substitui as recompensas de resultado convencionais por recompensas de checklist, permitindo uma avaliação sistemática do desempenho do agente. Ele decompõe o comportamento pretendido em critérios binários detalhados, transformando as avaliações de desempenho em decisões estáveis, no estilo de classificação. A estrutura emprega atribuição de recompensas escassas enquanto mantém critérios de avaliação densos.
Resultados de Desempenho
Nos testes, o CM2 demonstrou melhorias substanciais em relação às técnicas de ajuste fino supervisionado. Usando um modelo base de 8 bilhões de parâmetros e um conjunto de dados RL de 8.000 exemplos, o CM2 alcançou:
- Um aumento de 8 pontos na avaliação tau^-Bench.
- Uma melhoria de 10 pontos no benchmark BFCL-V4.
- Um ganho de 12 pontos no ToolSandbox.
Esses resultados indicam um desempenho superior em comparação com métodos tradicionais e posicionam o CM2 em pé de igualdade, ou superando, as capacidades de modelos de código aberto de tamanho semelhante.
A estrutura do CM2 está acessível através da comunidade de código aberto: CM2-RLCR-Tool-Agent no GitHub.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.12268v1
Todos os direitos e créditos pertencem ao editor original.