AI
AI新闻

SokoBench:评估大型语言模型中的长远规划与推理能力

Source:arXiv
原作者:Sebastiano Monti et al.
SokoBench:评估大型语言模型中的长远规划与推理能力

Gemini AI生成的图像

一项新研究系统性地评估了最新的大型推理模型(LRMs)在长远规划能力方面的表现,采用了基于简化版推箱子游戏的基准测试。结果显示,当需要超过25步的移动时,这些模型的表现显著下降,突显了它们在前瞻性规划能力上的局限性。虽然通过规划领域定义语言(PDDL)工具进行的增强带来了些许改进,但这表明其根本架构的限制并未因规模扩大而得到解决。

SokoBench基准评估大型语言模型的长期规划能力

最近的研究揭示了关于最先进的大型推理模型(LRMs)在长期规划能力方面的重要见解。一个名为SokoBench的新基准通过一系列简化的推箱子谜题来评估这些模型,旨在孤立长期规划的复杂性。

这一评估突显出,当需要解决超过25步的难题时,LRMs的表现显著下降,这表明模型在前瞻性规划能力方面存在根本性限制。

基准发现

SokoBench的开发旨在聚焦于规划挑战,使研究人员能够考察LRMs在长期推理任务中的固有能力。结果表明,随着所需解决路径的长度增加,性能持续下降。

  • 模型在解决需要超过25步的谜题时表现出显著困难。
  • 性能下降表明LRMs在预测未来状态方面存在局限。

研究团队将规划领域定义语言(PDDL)解析和求解工具集成到LRMs中,虽然取得了一定的性能提升,但并未完全弥补观察到的不足。

相关主题:

大型语言模型长远规划推理能力SokobanPDDL

📰 原始来源: https://arxiv.org/abs/2601.20856v1

所有权利和署名均属于原出版商。

分享此文章