AI
Noticias IA

SokoBench: Evaluación de la Planificación y Razonamiento a Largo Plazo en Modelos de Lenguaje Grande

Source:arXiv
Autor original:Sebastiano Monti et al.
SokoBench: Evaluación de la Planificación y Razonamiento a Largo Plazo en Modelos de Lenguaje Grande

Imagen generada por Gemini AI

Un nuevo estudio evalúa de manera sistemática las capacidades de planificación a largo plazo de los Modelos de Razonamiento de última generación (LRMs) utilizando un criterio basado en rompecabezas simplificados de Sokoban. Los resultados indican una caída significativa en el rendimiento cuando se requieren más de 25 movimientos, lo que pone de manifiesto las limitaciones en su capacidad de planificación anticipada. Las mejoras logradas mediante herramientas del Lenguaje de Definición de Dominios de Planificación (PDDL) muestran solo avances modestos, lo que sugiere que las restricciones arquitectónicas fundamentales siguen sin abordarse a pesar de los métodos de escalado.

SokoBench Benchmark Evalúa la Planificación a Largo Plazo en Modelos de Lenguaje Grandes

Investigaciones recientes han revelado información significativa sobre las capacidades de planificación a largo plazo de los Modelos de Razonamiento a Gran Escala (LRMs) de última generación. Un nuevo benchmark, denominado SokoBench, evalúa estos modelos a través de una serie de rompecabezas simplificados de Sokoban diseñados para aislar las complejidades de la planificación a largo plazo.

Esta evaluación destaca un marcado descenso en el rendimiento de los LRMs cuando se les encomiendan problemas que requieren más de 25 movimientos, lo que indica una limitación fundamental en la capacidad de los modelos para planificar a futuro.

Hallazgos del Benchmark

El SokoBench fue desarrollado para centrarse en los desafíos de planificación, permitiendo a los investigadores examinar las capacidades inherentes de los LRMs en tareas de razonamiento a largo plazo. Los resultados indican una degradación constante en el rendimiento a medida que aumenta la longitud de la ruta de solución requerida.

  • Los modelos demostraron una dificultad significativa con rompecabezas que requerían más de 25 movimientos.
  • El descenso en el rendimiento sugiere limitaciones en cómo los LRMs pueden proyectar estados futuros.

El equipo de investigación incorporó herramientas de análisis y resolución del Lenguaje de Definición de Dominio de Planificación (PDDL) en los LRMs, lo que resultó en mejoras modestas en el rendimiento, pero no compensó completamente las deficiencias observadas.

Temas relacionados:

SokoBenchplanificación a largo plazorazonamientoModelos de Razonamiento de Última GeneraciónLenguaje de Definición de Dominios de Planificación

📰 Fuente original: https://arxiv.org/abs/2601.20856v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo