On-Policy-Kontextdistillation für Sprachmodelle

Von Gemini AI generiertes Bild
Ein neues Framework namens On-Policy Context Distillation (OPCD) verbessert Sprachmodelle, indem es ihnen ermöglicht, Wissen aus ihren eigenen generierten Ausgaben zu internalisieren. Diese Methode konsolidiert effektiv erfahrungsbasiertes Wissen und optimiert Systemaufforderungen, was zu einer höheren Genauigkeit bei Aufgaben wie mathematischem Denken und textbasierten Spielen führt. Zudem erleichtert OPCD den Wissenstransfer von größeren zu kleineren Modellen und übertrifft dabei bestehende Basistechniken.
On-Policy Kontext-Destillationsrahmen für Sprachmodelle eingeführt
Ein neuer Rahmen, On-Policy Kontext-Destillation (OPCD), wurde vorgeschlagen, um Sprachmodelle zu verbessern, indem sie in der Lage sind, kontextuelles Wissen effektiver zu internalisieren. Der OPCD-Rahmen trainiert ein Studentenmodell unter Verwendung seiner eigenen generierten Trajektorien, während die umgekehrte Kullback-Leibler-Divergenz gegenüber einem kontextuell bedingten Lehrermodell minimiert wird. Diese Methode hat sich vielversprechend in der erfahrungsbasierten Wissensdestillation und der Systemaufforderungsdestillation gezeigt.
Leistungsergebnisse
Die Wirksamkeit von OPCD wurde in mehreren Bereichen validiert, darunter:
- Mathematische Argumentation
- Textbasierte Spiele
- Domänenspezifische Aufgaben
In diesen Anwendungen übertraf OPCD konsequent die Basismethoden, erreichte eine höhere Aufgabenakkuratheit und zeigte eine bessere Erhaltung der Fähigkeiten außerhalb der Verteilung.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.12275v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.