SokoBench: Avaliando Planejamento e Raciocínio a Longo Prazo em Modelos de Linguagem de Grande Escala

Imagem gerada por Gemini AI
Um novo estudo avalia de forma sistemática as habilidades de planejamento a longo prazo dos Modelos de Raciocínio Avançados (LRMs) utilizando um benchmark baseado em quebra-cabeças Sokoban simplificados. Os resultados indicam uma queda significativa no desempenho quando mais de 25 movimentos são necessários, evidenciando limitações na capacidade de planejamento futuro desses modelos. As melhorias obtidas através de ferramentas da Linguagem de Definição de Domínio de Planejamento (PDDL) mostram apenas avanços modestos, sugerindo que restrições arquitetônicas fundamentais continuam não abordadas pelas abordagens de escalonamento.
SokoBench Avalia o Planejamento de Longo Prazo em Grandes Modelos de Linguagem
Pesquisas recentes revelaram insights significativos sobre as capacidades de planejamento de longo prazo dos Modelos de Raciocínio de Última Geração (LRMs). Um novo benchmark, denominado SokoBench, avalia esses modelos por meio de uma série de quebra-cabeças simplificados de Sokoban, projetados para isolar as complexidades do planejamento a longo prazo.
Essa avaliação destaca um declínio acentuado no desempenho dos LRMs quando desafiados a resolver problemas que exigem mais de 25 movimentos, indicando uma limitação fundamental na capacidade dos modelos para o planejamento futuro.
Resultados do Benchmark
O SokoBench foi desenvolvido para focar em desafios de planejamento, permitindo que os pesquisadores examinassem as capacidades inerentes dos LRMs em tarefas de raciocínio de longo prazo. Os resultados indicam uma degradação consistente no desempenho à medida que o comprimento do caminho de solução exigido aumenta.
- Os modelos demonstraram grande dificuldade com quebra-cabeças que necessitam de mais de 25 movimentos.
- O declínio no desempenho sugere limitações em como os LRMs podem projetar estados futuros.
A equipe de pesquisa incorporou ferramentas de análise e resolução da Linguagem de Definição de Domínio de Planejamento (PDDL) nos LRMs, resultando em melhorias modestas de desempenho, mas que não compensam totalmente as deficiências observadas.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2601.20856v1
Todos os direitos e créditos pertencem ao editor original.