重新思考大规模语言模型强化学习中的信任区域

•

原作者:Penghui Qi et al.

•

2026年2月4日

Gemini AI生成的图像

强化学习，特别是近端策略优化（PPO），在微调大型语言模型（LLMs）中发挥着至关重要的作用。然而，PPO的比率裁剪机制在处理令牌更新时出现管理不当，导致效率低下。为了解决这一问题，提出了发散近端策略优化（DPPO），该方法用更为科学的发散估计替代了原有机制，并利用二元和Top-K近似方法提升训练的稳定性和效率。

重新思考大语言模型强化学习中的信任区域

最近的研究突出了近端策略优化（PPO）算法在强化学习（RL）框架中微调大语言模型（LLMs）时的显著局限性。该研究提出了发散近端策略优化（DPPO），旨在提高LLMs的训练稳定性和效率。

PPO基于采样令牌概率的比率剪切对于具有大词汇量的LLMs来说是不够的，导致学习动态出现问题。低概率令牌面临过度惩罚，而对高概率令牌的更新则约束不足，从而造成训练不稳定。

提出的解决方案：发散近端策略优化

DPPO用来自政策发散的直接估计（如总变差或Kullback-Leibler（KL）散度）导出的约束替代了启发式剪切方法，旨在提供对策略更新的更准确表示。

DPPO还结合了高效的二进制和Top-K近似，以捕捉基本的发散信息，同时保持低计算开销，确保在大规模应用中的实用性。

实证评估

实证评估表明，DPPO在训练稳定性和效率方面始终优于现有方法，显著增强了大语言模型的强化学习应用的鲁棒性。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

重新思考大规模语言模型强化学习中的信任区域

重新思考大语言模型强化学习中的信任区域

提出的解决方案：发散近端策略优化

实证评估

相关主题：

分享此文章