Destilação de Contexto On-Policy para Modelos de Linguagem

•

Autor original:Tianzhu Ye et al.

•

12 de fevereiro de 2026

Destilação de Contexto On-Policy para Modelos de Linguagem

Imagem gerada por Gemini AI

Um novo framework chamado On-Policy Context Distillation (OPCD) aprimora modelos de linguagem ao permitir que eles internalizem o conhecimento a partir de suas próprias saídas geradas. Esse método consolida de forma eficaz o conhecimento experiencial e otimiza os prompts do sistema, resultando em uma precisão melhorada em tarefas como raciocínio matemático e jogos baseados em texto. O OPCD também facilita a transferência de conhecimento de modelos maiores para menores, superando as técnicas de referência existentes.

Framework de Destilação de Contexto em Política Introduzido para Modelos de Linguagem

Um novo framework, Destilação de Contexto em Política (OPCD), foi proposto para melhorar modelos de linguagem, permitindo que eles internalizem o conhecimento em contexto de forma mais eficaz. O framework OPCD treina um modelo aluno utilizando suas próprias trajetórias geradas, enquanto minimiza a divergência de Kullback-Leibler reversa em relação a um modelo professor condicionado ao contexto. Este método tem mostrado promessas na destilação de conhecimento experiencial e na destilação de prompts de sistema.

Resultados de Desempenho

A eficácia do OPCD foi validada em múltiplos domínios, incluindo:

Raciocínio matemático
Jogos baseados em texto
Tarefas específicas de domínio

Nessas aplicações, o OPCD consistentemente superou métodos de referência, alcançando maior precisão nas tarefas e demonstrando melhor preservação de capacidades fora da distribuição.

Tópicos relacionados:

Destilação de ContextoModelos de LinguagemKullback-LeiblerConhecimento ExperiencialPrompts de Sistema

📰 Fonte original: https://arxiv.org/abs/2602.12275v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit