SokoBench : Évaluation de la planification à long terme et du raisonnement dans les grands modèles de langage

•

Auteur original:Sebastiano Monti et al.

•

28 janvier 2026

SokoBench : Évaluation de la planification à long terme et du raisonnement dans les grands modèles de langage

Image générée par Gemini AI

Une nouvelle étude évalue systématiquement les capacités de planification à long terme des modèles de raisonnement avancés (Large Reasoning Models, LRM) à l'aide d'un benchmark basé sur des puzzles Sokoban simplifiés. Les résultats révèlent des chutes de performance significatives lorsque plus de 25 mouvements sont nécessaires, soulignant ainsi les limites de leur capacité de planification anticipée. Les améliorations apportées grâce aux outils de langage de définition de domaine de planification (Planning Domain Definition Language, PDDL) montrent seulement des progrès modestes, ce qui suggère que des contraintes architecturales fondamentales demeurent non résolues par les méthodes d'échelle.

SokoBench : Évaluation des Capacités de Planification à Long Terme dans les Grands Modèles de Langage

Des recherches récentes ont révélé des insights significatifs sur les capacités de planification à long terme des Grands Modèles de Raisonnement (GMR) à la pointe de la technologie. Un nouveau benchmark, nommé SokoBench, évalue ces modèles à travers une série de puzzles Sokoban simplifiés conçus pour isoler les complexités de la planification à long terme.

Cette évaluation met en évidence une baisse marquée de la performance des GMR lorsqu'ils sont confrontés à des problèmes nécessitant plus de 25 mouvements, indiquant une limitation fondamentale dans la capacité des modèles à planifier à l'avance.

Résultats du Benchmark

Le SokoBench a été développé pour se concentrer sur les défis de planification, permettant aux chercheurs d'examiner les capacités inhérentes des GMR dans les tâches de raisonnement à long terme. Les résultats indiquent une dégradation constante de la performance à mesure que la longueur du chemin de solution requis augmente.

Les modèles ont montré des difficultés significatives avec les puzzles nécessitant plus de 25 mouvements.
La baisse de performance suggère des limitations dans la manière dont les GMR peuvent projeter des états futurs.

L'équipe de recherche a intégré des outils de parsing et de résolution en Langage de Définition de Domaine de Planification (PDDL) dans les GMR, entraînant des améliorations modestes de performance, mais ne compensant pas pleinement les déficiences observées.

Sujets connexes :

SokoBenchplanification à long termeraisonnementmodèles de langageperformances de planification

📰 Source originale : https://arxiv.org/abs/2601.20856v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit