Distillation de Contexte On-Policy pour Modèles de Langage

•

Auteur original:Tianzhu Ye et al.

•

12 février 2026

Distillation de Contexte On-Policy pour Modèles de Langage

Image générée par Gemini AI

Un nouveau cadre appelé On-Policy Context Distillation (OPCD) améliore les modèles de langage en leur permettant d'internaliser les connaissances provenant de leurs propres sorties générées. Cette méthode consolide efficacement les connaissances acquises par l'expérience et optimise les invites du système, ce qui conduit à une meilleure précision dans des tâches telles que le raisonnement mathématique et les jeux textuels. De plus, l'OPCD facilite le transfert de connaissances des modèles plus grands vers les plus petits, surpassant ainsi les techniques de référence existantes.

Un cadre de distillation de contexte en mode actif introduit pour les modèles de langage

Un nouveau cadre, la Distillation de Contexte en Mode Actif (OPCD), a été proposé pour améliorer les modèles de langage en leur permettant d'intérioriser plus efficacement les connaissances contextuelles. Le cadre OPCD entraîne un modèle étudiant en utilisant ses propres trajectoires générées tout en minimisant la divergence de Kullback-Leibler inversée par rapport à un modèle professeur conditionné par le contexte. Cette méthode a montré des promesses dans la distillation de connaissances expérimentales et la distillation de prompts système.

Résultats de performance

L'efficacité de l'OPCD a été validée dans plusieurs domaines, notamment :

Raisonnement mathématique
Jeux basés sur du texte
Tâches spécifiques à un domaine

Dans ces applications, l'OPCD a systématiquement surpassé les méthodes de référence, atteignant une meilleure précision dans les tâches et montrant une meilleure préservation des capacités hors distribution.

Sujets connexes :

Distillation de ContexteOn-Policymodèles de languedivergence de Kullback-Leiblerdistillation de connaissances expérientielles

📰 Source originale : https://arxiv.org/abs/2602.12275v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit