Distillazione del Contesto On-Policy per Modelli Linguistici

Immagine generata da Gemini AI
Un nuovo framework chiamato On-Policy Context Distillation (OPCD) migliora i modelli linguistici consentendo loro di interiorizzare conoscenze dai propri output generati. Questo metodo consolida efficacemente le conoscenze esperienziali e ottimizza i prompt del sistema, portando a una maggiore precisione in compiti come il ragionamento matematico e i giochi basati su testo. Inoltre, l’OPCD facilita il trasferimento di conoscenze dai modelli più grandi a quelli più piccoli, superando le tecniche di riferimento esistenti.
Framework di Distillazione del Contesto On-Policy Introdotto per i Modelli Linguistici
È stato proposto un nuovo framework, la Distillazione del Contesto On-Policy (OPCD), per migliorare i modelli linguistici permettendo loro di internalizzare più efficacemente la conoscenza in contesto. Il framework OPCD addestra un modello studente utilizzando le proprie traiettorie generate, minimizzando la divergenza Kullback-Leibler inversa rispetto a un modello insegnante condizionato al contesto. Questo metodo ha mostrato promettenti risultati nella distillazione della conoscenza esperienziale e nella distillazione dei prompt di sistema.
Risultati delle Prestazioni
L'efficacia dell'OPCD è stata convalidata in diversi domini, tra cui:
- Ragionamento matematico
- Giochi basati su testo
- Compiti specifici del dominio
In queste applicazioni, l'OPCD ha costantemente superato i metodi di riferimento, raggiungendo una maggiore accuratezza nei compiti e dimostrando una migliore conservazione delle capacità fuori distribuzione.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.12275v1
Tutti i diritti e i crediti appartengono all'editore originale.