SokoBench: Оценка планирования и рассуждений на длительных горизонтах в крупных языковых моделях

Изображение создано Gemini AI
Новое исследование систематически оценивает способности к долгосрочному планированию современных больших моделей рассуждений (LRM) на основе эталона, основанного на упрощенных головоломках Сокобан. Результаты показывают значительное снижение производительности, когда требуется более 25 ходов, подчеркивая ограничения в их способности к продуманному планированию. Улучшения с использованием инструментов языка определения области планирования (PDDL) демонстрируют лишь скромные результаты, что указывает на то, что основные архитектурные ограничения остаются неразрешенными методами масштабирования.
Бенчмарк SokoBench оценивает планирование на длительные горизонты в крупных языковых моделях
Недавние исследования выявили значительные insights в возможностях долгосрочного планирования современных крупных моделей рассуждений (LRM). Новый бенчмарк под названием SokoBench оценивает эти модели с помощью серии упрощенных головоломок Сокобан, разработанных для изоляции сложностей долгосрочного планирования.
Эта оценка подчеркивает резкое снижение производительности LRM при решении задач, требующих более 25 ходов, что указывает на фундаментальное ограничение в способности моделей к планированию вперед.
Результаты бенчмарка
SokoBench был разработан для сосредоточения на задачах планирования, что позволяет исследователям изучать присущие LRM возможности в задачах рассуждения на длительные горизонты. Результаты показывают последовательное ухудшение производительности с увеличением длины требуемого пути решения.
- Модели продемонстрировали значительные трудности с головоломками, требующими более 25 ходов.
- Снижение производительности указывает на ограничения в том, как LRM могут проецировать будущие состояния.
Исследовательская группа интегрировала инструменты разбора и решения на языке определения доменов планирования (PDDL) в LRM, что привело к незначительным улучшениям производительности, но не полностью компенсировало наблюдаемые недостатки.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.20856v1
Все права и авторство принадлежат первоначальному издателю.