Repensando a Região de Confiança no Aprendizado por Reforço em Modelos de Linguagem de Grande Escala

•

Autor original:Penghui Qi et al.

•

4 de fevereiro de 2026

Repensando a Região de Confiança no Aprendizado por Reforço em Modelos de Linguagem de Grande Escala

Imagem gerada por Gemini AI

O aprendizado por reforço, especialmente a Otimização de Política Proximal (PPO), é fundamental para o ajuste fino de Modelos de Linguagem de Grande Escala (LLMs). No entanto, o mecanismo de recorte de razão do PPO gerencia de forma inadequada as atualizações de tokens, resultando em ineficiências. A proposta de Otimização de Política Proximal por Divergência (DPPO) substitui esse mecanismo por uma estimativa de divergência mais fundamentada, utilizando aproximações Binárias e Top-K para melhorar a estabilidade e a eficiência durante o treinamento.

Repensando Regiões de Confiança em Aprendizado por Reforço de Modelos de Linguagem Grande

Pesquisas recentes destacam limitações significativas no algoritmo de Otimização de Política Proximal (PPO) para ajuste fino de Modelos de Linguagem Grande (LLMs) em estruturas de aprendizado por reforço (RL). O estudo propõe a Otimização de Política Proximal de Divergência (DPPO) para melhorar a estabilidade e a eficiência do treinamento para LLMs.

A limitação do PPO baseada na proporção de tokens amostrados é inadequada para LLMs com vocabulários extensos, levando a dinâmicas de aprendizado problemáticas. Tokens de baixa probabilidade enfrentam penalizações excessivas, enquanto as atualizações para tokens de alta probabilidade são insuficientemente restringidas, criando instabilidade no treinamento.

Solução Proposta: Otimização de Política Proximal de Divergência

A DPPO substitui a abordagem heurística de limitação por restrições derivadas de estimativas diretas da divergência de política, como Variação Total ou divergência de Kullback-Leibler (KL), visando fornecer uma representação mais precisa das atualizações de política.

A DPPO também incorpora aproximações eficientes de Binário e Top-K para capturar informações essenciais de divergência enquanto mantém baixo custo computacional, garantindo praticidade para aplicações em grande escala.

Avaliações Empíricas

Avaliações empíricas demonstram que a DPPO consistentemente supera os métodos existentes em estabilidade e eficiência de treinamento, melhorando significativamente a robustez das aplicações de aprendizado por reforço para LLMs.

Tópicos relacionados:

aprendizado por reforçoModelos de Linguagem de Grande EscalaOtimização de Política ProximalDPPOdivergência de política

📰 Fonte original: https://arxiv.org/abs/2602.04879v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit