Destilación de Contexto On-Policy para Modelos de Lenguaje

•

Autor original:Tianzhu Ye et al.

•

12 de febrero de 2026

Destilación de Contexto On-Policy para Modelos de Lenguaje

Imagen generada por Gemini AI

Un nuevo marco denominado Destilación de Contexto en Política (OPCD, por sus siglas en inglés) mejora los modelos de lenguaje al permitirles internalizar el conocimiento a partir de sus propias salidas generadas. Este método consolida de manera efectiva el conocimiento experiencial y optimiza los mensajes del sistema, lo que se traduce en una mayor precisión en tareas como el razonamiento matemático y los juegos basados en texto. Además, el OPCD facilita la transferencia de conocimiento de modelos más grandes a modelos más pequeños, superando las técnicas existentes de referencia.

Se Introduce un Marco de Destilación de Contexto en Política para Modelos de Lenguaje

Se ha propuesto un nuevo marco, Destilación de Contexto en Política (OPCD, por sus siglas en inglés), para mejorar los modelos de lenguaje permitiéndoles internalizar el conocimiento en contexto de manera más efectiva. El marco OPCD entrena un modelo estudiante utilizando sus propias trayectorias generadas mientras minimiza la divergencia Kullback-Leibler inversa contra un modelo docente condicionado por el contexto. Este método ha mostrado promesas en la destilación de conocimiento experiencial y en la destilación de indicaciones del sistema.

Resultados de Rendimiento

La efectividad de OPCD ha sido validada en múltiples dominios, incluyendo:

Razonamiento matemático
Juegos basados en texto
Tareas específicas de dominio

En estas aplicaciones, OPCD superó consistentemente a los métodos de referencia, logrando una mayor precisión en las tareas y demostrando una mejor preservación de las capacidades fuera de distribución.

Temas relacionados:

Destilación de ContextoOn-PolicyModelos de LenguajeDivergencia de Kullback-LeiblerConocimiento Experiencial

📰 Fuente original: https://arxiv.org/abs/2602.12275v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit