On-Policy-Kontextdistillation für Sprachmodelle

•

Originalautor:Tianzhu Ye et al.

•

12. Februar 2026

On-Policy-Kontextdistillation für Sprachmodelle

Von Gemini AI generiertes Bild

Ein neues Framework namens On-Policy Context Distillation (OPCD) verbessert Sprachmodelle, indem es ihnen ermöglicht, Wissen aus ihren eigenen generierten Ausgaben zu internalisieren. Diese Methode konsolidiert effektiv erfahrungsbasiertes Wissen und optimiert Systemaufforderungen, was zu einer höheren Genauigkeit bei Aufgaben wie mathematischem Denken und textbasierten Spielen führt. Zudem erleichtert OPCD den Wissenstransfer von größeren zu kleineren Modellen und übertrifft dabei bestehende Basistechniken.

On-Policy Kontext-Destillationsrahmen für Sprachmodelle eingeführt

Ein neuer Rahmen, On-Policy Kontext-Destillation (OPCD), wurde vorgeschlagen, um Sprachmodelle zu verbessern, indem sie in der Lage sind, kontextuelles Wissen effektiver zu internalisieren. Der OPCD-Rahmen trainiert ein Studentenmodell unter Verwendung seiner eigenen generierten Trajektorien, während die umgekehrte Kullback-Leibler-Divergenz gegenüber einem kontextuell bedingten Lehrermodell minimiert wird. Diese Methode hat sich vielversprechend in der erfahrungsbasierten Wissensdestillation und der Systemaufforderungsdestillation gezeigt.

Leistungsergebnisse

Die Wirksamkeit von OPCD wurde in mehreren Bereichen validiert, darunter:

Mathematische Argumentation
Textbasierte Spiele
Domänenspezifische Aufgaben

In diesen Anwendungen übertraf OPCD konsequent die Basismethoden, erreichte eine höhere Aufgabenakkuratheit und zeigte eine bessere Erhaltung der Fähigkeiten außerhalb der Verteilung.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

On-Policy-Kontextdistillation für Sprachmodelle

On-Policy Kontext-Destillationsrahmen für Sprachmodelle eingeführt

Leistungsergebnisse

Verwandte Themen:

Artikel teilen