SokoBench: Оценка планирования и рассуждений на длительных горизонтах в крупных языковых моделях

•

Оригинальный автор:Sebastiano Monti et al.

•

28 января 2026 г.

SokoBench: Оценка планирования и рассуждений на длительных горизонтах в крупных языковых моделях

Изображение создано Gemini AI

Новое исследование систематически оценивает способности к долгосрочному планированию современных больших моделей рассуждений (LRM) на основе эталона, основанного на упрощенных головоломках Сокобан. Результаты показывают значительное снижение производительности, когда требуется более 25 ходов, подчеркивая ограничения в их способности к продуманному планированию. Улучшения с использованием инструментов языка определения области планирования (PDDL) демонстрируют лишь скромные результаты, что указывает на то, что основные архитектурные ограничения остаются неразрешенными методами масштабирования.

Бенчмарк SokoBench оценивает планирование на длительные горизонты в крупных языковых моделях

Недавние исследования выявили значительные insights в возможностях долгосрочного планирования современных крупных моделей рассуждений (LRM). Новый бенчмарк под названием SokoBench оценивает эти модели с помощью серии упрощенных головоломок Сокобан, разработанных для изоляции сложностей долгосрочного планирования.

Эта оценка подчеркивает резкое снижение производительности LRM при решении задач, требующих более 25 ходов, что указывает на фундаментальное ограничение в способности моделей к планированию вперед.

Результаты бенчмарка

SokoBench был разработан для сосредоточения на задачах планирования, что позволяет исследователям изучать присущие LRM возможности в задачах рассуждения на длительные горизонты. Результаты показывают последовательное ухудшение производительности с увеличением длины требуемого пути решения.

Модели продемонстрировали значительные трудности с головоломками, требующими более 25 ходов.
Снижение производительности указывает на ограничения в том, как LRM могут проецировать будущие состояния.

Исследовательская группа интегрировала инструменты разбора и решения на языке определения доменов планирования (PDDL) в LRM, что привело к незначительным улучшениям производительности, но не полностью компенсировало наблюдаемые недостатки.

Связанные темы:

SokoBenchдолгосрочное планированиебольшие языковые моделипланированиеархитектурные ограничения

📰 Первоисточник: https://arxiv.org/abs/2601.20856v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit