语言模型的在线策略上下文蒸馏

•

原作者:Tianzhu Ye et al.

•

2026年2月12日

Gemini AI生成的图像

一种名为“在线策略上下文蒸馏”（On-Policy Context Distillation，简称OPCD）新框架通过让语言模型内化自身生成的输出知识，从而提升了其性能。这一方法有效地整合了经验知识，并优化了系统提示，从而在数学推理和文本游戏等任务中实现了更高的准确性。此外，OPCD还促进了从大型模型到小型模型的知识转移，表现优于现有的基准技术。

为语言模型引入的在线上下文蒸馏框架

一种新的框架，即在线上下文蒸馏（OPCD），被提出以增强语言模型，使其能够更有效地内化上下文知识。OPCD框架通过使用自身生成的轨迹训练学生模型，同时最小化与上下文条件教师模型之间的反向Kullback-Leibler散度。这种方法在经验知识蒸馏和系统提示蒸馏中显示出了良好的前景。

性能结果

OPCD的有效性已在多个领域得到了验证，包括：

数学推理
文本游戏
特定领域任务

在这些应用中，OPCD始终优于基线方法，达到了更高的任务准确性，并展示了更好的分布外能力保留。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

语言模型的在线策略上下文蒸馏

为语言模型引入的在线上下文蒸馏框架

性能结果

相关主题：

分享此文章