通过文本反馈扩展强化学习的能力

Gemini AI生成的图像
最近的一项研究提出了一种名为文本反馈强化学习(RLTF)的方法,旨在通过文本评价来优化大型语言模型的后期训练。与传统方法不同,RLTF采用了多轮强化学习,使模型能够在没有大量示范的情况下内化反馈。研究中测试了两种技术——自我蒸馏和反馈建模,结果在多个任务上始终优于现有基准,表明文本反馈能够有效显著提升模型性能。
通过文本反馈扩展强化学习能力
最近在大型语言模型(LLM)的强化学习(RL)领域的进展揭示了一种新颖的方法,利用文本反馈作为中介信号,以提高模型训练效率。目前的RL策略通常依赖于有限的反馈,通常仅限于二元奖励。引入文本反馈旨在弥补这一差距,提供一种更具信息量且成本效益更高的替代方案。
介绍基于文本反馈的强化学习(RLTF)
所提出的框架,基于文本反馈的强化学习(RLTF),规范化了一种多回合的RL训练设置,其中在训练过程中利用文本反馈,但在推理时不可用。模型必须内化反馈,以提高其在测试中的单回合情境下的表现。
引入了两种创新方法:
- 自我蒸馏(RLTF-SD):该方法训练策略与自身反馈条件下的第二回合输出对齐,鼓励模型响应的一致性。
- 反馈建模(RLTF-FM):该方法旨在将反馈预测作为辅助目标,进一步指导模型的学习过程。
理论与实证评估
研究人员对两种RLTF方法进行了全面的理论分析,并在各种任务上进行实证评估,包括推理难题和创造性写作练习。结果一致表明,两种RLTF方法在这些基准测试中显著超越了强基线模型。
研究结果强调了将文本反馈整合作为RL中丰富监督源的潜力,表明这种方法可能导致更强大且更具适应性的LLM。
相关主题:
文本反馈强化学习大规模语言模型多轮强化学习自我蒸馏
📰 原始来源: https://arxiv.org/abs/2602.02482v1
所有权利和署名均属于原出版商。