SokoBench：评估大型语言模型中的长远规划与推理能力

•

原作者:Sebastiano Monti et al.

•

2026年1月28日

Gemini AI生成的图像

一项新研究系统性地评估了最新的大型推理模型（LRMs）在长远规划能力方面的表现，采用了基于简化版推箱子游戏的基准测试。结果显示，当需要超过25步的移动时，这些模型的表现显著下降，突显了它们在前瞻性规划能力上的局限性。虽然通过规划领域定义语言（PDDL）工具进行的增强带来了些许改进，但这表明其根本架构的限制并未因规模扩大而得到解决。

SokoBench基准评估大型语言模型的长期规划能力

最近的研究揭示了关于最先进的大型推理模型（LRMs）在长期规划能力方面的重要见解。一个名为SokoBench的新基准通过一系列简化的推箱子谜题来评估这些模型，旨在孤立长期规划的复杂性。

这一评估突显出，当需要解决超过25步的难题时，LRMs的表现显著下降，这表明模型在前瞻性规划能力方面存在根本性限制。

基准发现

SokoBench的开发旨在聚焦于规划挑战，使研究人员能够考察LRMs在长期推理任务中的固有能力。结果表明，随着所需解决路径的长度增加，性能持续下降。

模型在解决需要超过25步的谜题时表现出显著困难。
性能下降表明LRMs在预测未来状态方面存在局限。

研究团队将规划领域定义语言（PDDL）解析和求解工具集成到LRMs中，虽然取得了一定的性能提升，但并未完全弥补观察到的不足。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

SokoBench：评估大型语言模型中的长远规划与推理能力

SokoBench基准评估大型语言模型的长期规划能力

基准发现

相关主题：

分享此文章