AI
AI新闻

语言模型的在线策略上下文蒸馏

Source:arXiv
原作者:Tianzhu Ye et al.
语言模型的在线策略上下文蒸馏

Gemini AI生成的图像

一种名为“在线策略上下文蒸馏”(On-Policy Context Distillation,简称OPCD)新框架通过让语言模型内化自身生成的输出知识,从而提升了其性能。这一方法有效地整合了经验知识,并优化了系统提示,从而在数学推理和文本游戏等任务中实现了更高的准确性。此外,OPCD还促进了从大型模型到小型模型的知识转移,表现优于现有的基准技术。

为语言模型引入的在线上下文蒸馏框架

一种新的框架,即在线上下文蒸馏(OPCD),被提出以增强语言模型,使其能够更有效地内化上下文知识。OPCD框架通过使用自身生成的轨迹训练学生模型,同时最小化与上下文条件教师模型之间的反向Kullback-Leibler散度。这种方法在经验知识蒸馏和系统提示蒸馏中显示出了良好的前景。

性能结果

OPCD的有效性已在多个领域得到了验证,包括:

  • 数学推理
  • 文本游戏
  • 特定领域任务

在这些应用中,OPCD始终优于基线方法,达到了更高的任务准确性,并展示了更好的分布外能力保留。

相关主题:

政策内上下文蒸馏上下文知识Kullback-Leibler散度经验知识蒸馏跨规模蒸馏

📰 原始来源: https://arxiv.org/abs/2602.12275v1

所有权利和署名均属于原出版商。

分享此文章