通过文本反馈扩展强化学习的能力

•

原作者:Yuda Song et al.

•

2026年2月2日

Gemini AI生成的图像

最近的一项研究提出了一种名为文本反馈强化学习（RLTF）的方法，旨在通过文本评价来优化大型语言模型的后期训练。与传统方法不同，RLTF采用了多轮强化学习，使模型能够在没有大量示范的情况下内化反馈。研究中测试了两种技术——自我蒸馏和反馈建模，结果在多个任务上始终优于现有基准，表明文本反馈能够有效显著提升模型性能。

通过文本反馈扩展强化学习能力

最近在大型语言模型（LLM）的强化学习（RL）领域的进展揭示了一种新颖的方法，利用文本反馈作为中介信号，以提高模型训练效率。目前的RL策略通常依赖于有限的反馈，通常仅限于二元奖励。引入文本反馈旨在弥补这一差距，提供一种更具信息量且成本效益更高的替代方案。

介绍基于文本反馈的强化学习（RLTF）

所提出的框架，基于文本反馈的强化学习（RLTF），规范化了一种多回合的RL训练设置，其中在训练过程中利用文本反馈，但在推理时不可用。模型必须内化反馈，以提高其在测试中的单回合情境下的表现。

引入了两种创新方法：

自我蒸馏（RLTF-SD）：该方法训练策略与自身反馈条件下的第二回合输出对齐，鼓励模型响应的一致性。
反馈建模（RLTF-FM）：该方法旨在将反馈预测作为辅助目标，进一步指导模型的学习过程。

理论与实证评估

研究人员对两种RLTF方法进行了全面的理论分析，并在各种任务上进行实证评估，包括推理难题和创造性写作练习。结果一致表明，两种RLTF方法在这些基准测试中显著超越了强基线模型。

研究结果强调了将文本反馈整合作为RL中丰富监督源的潜力，表明这种方法可能导致更强大且更具适应性的LLM。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

通过文本反馈扩展强化学习的能力

通过文本反馈扩展强化学习能力

介绍基于文本反馈的强化学习（RLTF）

理论与实证评估

相关主题：

分享此文章