AI
KI-Nachrichten

On-Policy-Kontextdistillation für Sprachmodelle

Source:arXiv
Originalautor:Tianzhu Ye et al.
On-Policy-Kontextdistillation für Sprachmodelle

Von Gemini AI generiertes Bild

Ein neues Framework namens On-Policy Context Distillation (OPCD) verbessert Sprachmodelle, indem es ihnen ermöglicht, Wissen aus ihren eigenen generierten Ausgaben zu internalisieren. Diese Methode konsolidiert effektiv erfahrungsbasiertes Wissen und optimiert Systemaufforderungen, was zu einer höheren Genauigkeit bei Aufgaben wie mathematischem Denken und textbasierten Spielen führt. Zudem erleichtert OPCD den Wissenstransfer von größeren zu kleineren Modellen und übertrifft dabei bestehende Basistechniken.

On-Policy Kontext-Destillationsrahmen für Sprachmodelle eingeführt

Ein neuer Rahmen, On-Policy Kontext-Destillation (OPCD), wurde vorgeschlagen, um Sprachmodelle zu verbessern, indem sie in der Lage sind, kontextuelles Wissen effektiver zu internalisieren. Der OPCD-Rahmen trainiert ein Studentenmodell unter Verwendung seiner eigenen generierten Trajektorien, während die umgekehrte Kullback-Leibler-Divergenz gegenüber einem kontextuell bedingten Lehrermodell minimiert wird. Diese Methode hat sich vielversprechend in der erfahrungsbasierten Wissensdestillation und der Systemaufforderungsdestillation gezeigt.

Leistungsergebnisse

Die Wirksamkeit von OPCD wurde in mehreren Bereichen validiert, darunter:

  • Mathematische Argumentation
  • Textbasierte Spiele
  • Domänenspezifische Aufgaben

In diesen Anwendungen übertraf OPCD konsequent die Basismethoden, erreichte eine höhere Aufgabenakkuratheit und zeigte eine bessere Erhaltung der Fähigkeiten außerhalb der Verteilung.

Verwandte Themen:

On-Policy Kontext-DestillationSprachmodelleKullback-Leibler-DivergenzWissensdestillationSystem-Prompt-Destillation

📰 Originalquelle: https://arxiv.org/abs/2602.12275v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen