Expansão das Capacidades do Aprendizado por Reforço Através de Feedback em Texto

•

Autor original:Yuda Song et al.

•

2 de fevereiro de 2026

Expansão das Capacidades do Aprendizado por Reforço Através de Feedback em Texto

Imagem gerada por Gemini AI

Um estudo recente apresenta o RL a partir de Feedback Textual (RLTF), que utiliza críticas em texto para aprimorar modelos de linguagem de grande escala após o treinamento. Ao contrário dos métodos tradicionais, o RLTF emprega aprendizado por reforço em múltiplas interações, permitindo que os modelos assimilem o feedback sem a necessidade de demonstrações extensivas. Duas técnicas, Auto-Distilação e Modelagem de Feedback, foram testadas em diversas tarefas e superaram consistentemente as linhas de base existentes, indicando que o feedback textual pode melhorar significativamente o desempenho dos modelos de forma eficiente.

Expandindo as Capacidades de Aprendizado por Reforço com Feedback em Texto

Avanços recentes em aprendizado por reforço (RL) para grandes modelos de linguagem (LLMs) revelaram uma abordagem inovadora que utiliza feedback em texto como um sinal intermediário para melhorar a eficiência do treinamento do modelo. As estratégias atuais de RL frequentemente dependem de feedback mínimo, geralmente limitado a recompensas binárias. A introdução do feedback em texto busca preencher essa lacuna, oferecendo uma alternativa mais informativa e, ao mesmo tempo, econômica.

Introduzindo RL a partir de Feedback em Texto (RLTF)

O framework proposto, RL a partir de Feedback em Texto (RLTF), formaliza uma configuração de treinamento RL de múltiplas interações, onde o feedback em texto é utilizado durante o treinamento, mas não está disponível na inferência. Os modelos devem internalizar o feedback para melhorar seu desempenho em cenários de uma única interação durante os testes.

Duas metodologias inovadoras foram introduzidas:

Auto-Distilação (RLTF-SD): Esta abordagem treina a política para alinhar-se com suas próprias saídas da segunda interação condicionadas ao feedback, incentivando a consistência nas respostas do modelo.
Modelagem de Feedback (RLTF-FM): Este método visa prever o feedback como um objetivo auxiliar, orientando ainda mais o modelo em seu processo de aprendizado.

Avaliações Teóricas e Empíricas

Os pesquisadores realizaram uma análise teórica completa de ambos os métodos RLTF, seguida de avaliações empíricas em várias tarefas, incluindo quebra-cabeças de raciocínio e exercícios de escrita criativa. Os resultados demonstraram consistentemente que ambos os métodos RLTF superaram significativamente modelos de referência robustos em todos esses benchmarks.

As descobertas ressaltam o potencial de integrar feedback em texto como uma rica fonte de supervisão em RL, sugerindo que essa abordagem pode levar a LLMs mais robustos e adaptáveis.

Tópicos relacionados:

Aprendizado por ReforçoFeedback TextualLinguagem de Grande EscalaAuto-DestilaçãoModelagem de Feedback

📰 Fonte original: https://arxiv.org/abs/2602.02482v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit