AI
AI新闻

重新思考大规模语言模型强化学习中的信任区域

Source:arXiv
原作者:Penghui Qi et al.
重新思考大规模语言模型强化学习中的信任区域

Gemini AI生成的图像

强化学习,特别是近端策略优化(PPO),在微调大型语言模型(LLMs)中发挥着至关重要的作用。然而,PPO的比率裁剪机制在处理令牌更新时出现管理不当,导致效率低下。为了解决这一问题,提出了发散近端策略优化(DPPO),该方法用更为科学的发散估计替代了原有机制,并利用二元和Top-K近似方法提升训练的稳定性和效率。

重新思考大语言模型强化学习中的信任区域

最近的研究突出了近端策略优化(PPO)算法在强化学习(RL)框架中微调大语言模型(LLMs)时的显著局限性。该研究提出了发散近端策略优化(DPPO),旨在提高LLMs的训练稳定性和效率。

PPO基于采样令牌概率的比率剪切对于具有大词汇量的LLMs来说是不够的,导致学习动态出现问题。低概率令牌面临过度惩罚,而对高概率令牌的更新则约束不足,从而造成训练不稳定。

提出的解决方案:发散近端策略优化

DPPO用来自政策发散的直接估计(如总变差或Kullback-Leibler(KL)散度)导出的约束替代了启发式剪切方法,旨在提供对策略更新的更准确表示。

DPPO还结合了高效的二进制和Top-K近似,以捕捉基本的发散信息,同时保持低计算开销,确保在大规模应用中的实用性。

实证评估

实证评估表明,DPPO在训练稳定性和效率方面始终优于现有方法,显著增强了大语言模型的强化学习应用的鲁棒性。

相关主题:

强化学习大型语言模型近端策略优化差异近端策略优化训练稳定性

📰 原始来源: https://arxiv.org/abs/2602.04879v1

所有权利和署名均属于原出版商。

分享此文章