Destilação de Contexto On-Policy para Modelos de Linguagem

Imagem gerada por Gemini AI
Um novo framework chamado On-Policy Context Distillation (OPCD) aprimora modelos de linguagem ao permitir que eles internalizem o conhecimento a partir de suas próprias saídas geradas. Esse método consolida de forma eficaz o conhecimento experiencial e otimiza os prompts do sistema, resultando em uma precisão melhorada em tarefas como raciocínio matemático e jogos baseados em texto. O OPCD também facilita a transferência de conhecimento de modelos maiores para menores, superando as técnicas de referência existentes.
Framework de Destilação de Contexto em Política Introduzido para Modelos de Linguagem
Um novo framework, Destilação de Contexto em Política (OPCD), foi proposto para melhorar modelos de linguagem, permitindo que eles internalizem o conhecimento em contexto de forma mais eficaz. O framework OPCD treina um modelo aluno utilizando suas próprias trajetórias geradas, enquanto minimiza a divergência de Kullback-Leibler reversa em relação a um modelo professor condicionado ao contexto. Este método tem mostrado promessas na destilação de conhecimento experiencial e na destilação de prompts de sistema.
Resultados de Desempenho
A eficácia do OPCD foi validada em múltiplos domínios, incluindo:
- Raciocínio matemático
- Jogos baseados em texto
- Tarefas específicas de domínio
Nessas aplicações, o OPCD consistentemente superou métodos de referência, alcançando maior precisão nas tarefas e demonstrando melhor preservação de capacidades fora da distribuição.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.12275v1
Todos os direitos e créditos pertencem ao editor original.