Destilación de Contexto On-Policy para Modelos de Lenguaje

Imagen generada por Gemini AI
Un nuevo marco denominado Destilación de Contexto en Política (OPCD, por sus siglas en inglés) mejora los modelos de lenguaje al permitirles internalizar el conocimiento a partir de sus propias salidas generadas. Este método consolida de manera efectiva el conocimiento experiencial y optimiza los mensajes del sistema, lo que se traduce en una mayor precisión en tareas como el razonamiento matemático y los juegos basados en texto. Además, el OPCD facilita la transferencia de conocimiento de modelos más grandes a modelos más pequeños, superando las técnicas existentes de referencia.
Se Introduce un Marco de Destilación de Contexto en Política para Modelos de Lenguaje
Se ha propuesto un nuevo marco, Destilación de Contexto en Política (OPCD, por sus siglas en inglés), para mejorar los modelos de lenguaje permitiéndoles internalizar el conocimiento en contexto de manera más efectiva. El marco OPCD entrena un modelo estudiante utilizando sus propias trayectorias generadas mientras minimiza la divergencia Kullback-Leibler inversa contra un modelo docente condicionado por el contexto. Este método ha mostrado promesas en la destilación de conocimiento experiencial y en la destilación de indicaciones del sistema.
Resultados de Rendimiento
La efectividad de OPCD ha sido validada en múltiples dominios, incluyendo:
- Razonamiento matemático
- Juegos basados en texto
- Tareas específicas de dominio
En estas aplicaciones, OPCD superó consistentemente a los métodos de referencia, logrando una mayor precisión en las tareas y demostrando una mejor preservación de las capacidades fuera de distribución.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.12275v1
Todos los derechos y créditos pertenecen al editor original.