AI
Notizie IA

Distillazione del Contesto On-Policy per Modelli Linguistici

Source:arXiv
Autore originale:Tianzhu Ye et al.
Distillazione del Contesto On-Policy per Modelli Linguistici

Immagine generata da Gemini AI

Un nuovo framework chiamato On-Policy Context Distillation (OPCD) migliora i modelli linguistici consentendo loro di interiorizzare conoscenze dai propri output generati. Questo metodo consolida efficacemente le conoscenze esperienziali e ottimizza i prompt del sistema, portando a una maggiore precisione in compiti come il ragionamento matematico e i giochi basati su testo. Inoltre, l’OPCD facilita il trasferimento di conoscenze dai modelli più grandi a quelli più piccoli, superando le tecniche di riferimento esistenti.

Framework di Distillazione del Contesto On-Policy Introdotto per i Modelli Linguistici

È stato proposto un nuovo framework, la Distillazione del Contesto On-Policy (OPCD), per migliorare i modelli linguistici permettendo loro di internalizzare più efficacemente la conoscenza in contesto. Il framework OPCD addestra un modello studente utilizzando le proprie traiettorie generate, minimizzando la divergenza Kullback-Leibler inversa rispetto a un modello insegnante condizionato al contesto. Questo metodo ha mostrato promettenti risultati nella distillazione della conoscenza esperienziale e nella distillazione dei prompt di sistema.

Risultati delle Prestazioni

L'efficacia dell'OPCD è stata convalidata in diversi domini, tra cui:

  • Ragionamento matematico
  • Giochi basati su testo
  • Compiti specifici del dominio

In queste applicazioni, l'OPCD ha costantemente superato i metodi di riferimento, raggiungendo una maggiore accuratezza nei compiti e dimostrando una migliore conservazione delle capacità fuori distribuzione.

Argomenti correlati:

Distillazione del ContestoOn-Policymodelli linguisticidivergenza di Kullback-Leiblerconoscenza esperienziale

📰 Fonte originale: https://arxiv.org/abs/2602.12275v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo