InftyThink+: 通过强化学习实现有效且高效的无限期推理

Gemini AI生成的图像
InftyThink+ 是一个全新的强化学习框架,旨在通过优化摘要时机和推理恢复方式,提升大型模型的迭代推理能力。通过两阶段的训练过程,它在 AIME24 上提高了 21% 的准确率,相较于传统方法,不仅表现更优,还降低了推理延迟。这种方法不仅提升了性能,还增强了对新基准的泛化能力,使推理过程更加高效。
InftyThink+: 通过强化学习实现无限视野推理的突破
一种新的框架 InftyThink+ 被引入,以增强大型模型中的无限视野推理。该端到端的强化学习方法通过提高准确性和减少推理延迟来优化迭代推理。
InftyThink+ 结合了迭代推理,概括中间思路以简化过程。它采用了一种新颖的强化学习框架,优化整个推理轨迹,包括模型控制的迭代边界和明确的概括技术。
使用 DeepSeek-R1-Distill-Qwen-1.5B 模型的实验结果表明,InftyThink+ 在 AIME24 基准测试中实现了 21% 的准确性提升,超越了传统的长链推理强化学习方法。此外,它在处理分布外基准测试时显示出更好的泛化能力,并减少了推理延迟,表明在推理任务中具有更强的性能和更高的效率。
相关主题:
InftyThink+强化学习迭代推理推理效率准确率
📰 原始来源: https://arxiv.org/abs/2602.06960v1
所有权利和署名均属于原出版商。