SokoBench: Bewertung von Langzeitplanung und -argumentation in großen Sprachmodellen

•

Originalautor:Sebastiano Monti et al.

•

28. Januar 2026

SokoBench: Bewertung von Langzeitplanung und -argumentation in großen Sprachmodellen

Von Gemini AI generiertes Bild

Eine neue Studie bewertet systematisch die langfristigen Planungsfähigkeiten von hochmodernen Large Reasoning Models (LRMs) anhand eines Benchmarks, der auf vereinfachten Sokoban-Puzzles basiert. Die Ergebnisse zeigen erhebliche Leistungseinbußen, sobald mehr als 25 Züge erforderlich sind, was auf Einschränkungen in ihrer Fähigkeit zur vorausschauenden Planung hinweist. Verbesserungen durch Werkzeuge der Planning Domain Definition Language (PDDL) zeigen lediglich bescheidene Fortschritte, was darauf hindeutet, dass grundlegende architektonische Einschränkungen durch Skalierungsmethoden nicht behoben werden.

SokoBench Benchmark Bewertet Langfristige Planung in Großen Sprachmodellen

Neueste Forschungen haben bedeutende Erkenntnisse über die Fähigkeiten zur langfristigen Planung von modernen Großen Denkmodellen (LRMs) zutage gefördert. Ein neuer Benchmark, genannt SokoBench, bewertet diese Modelle durch eine Reihe vereinfachter Sokoban-Rätsel, die darauf ausgelegt sind, die Komplexitäten der langfristigen Planung zu isolieren.

Diese Bewertung hebt einen deutlichen Rückgang der Leistung von LRMs hervor, wenn sie mit Problemen konfrontiert werden, die mehr als 25 Züge erfordern, was auf eine grundlegende Einschränkung der Fähigkeit der Modelle zur vorausschauenden Planung hinweist.

Ergebnisse des Benchmarks

Der SokoBench wurde entwickelt, um sich auf Planungsherausforderungen zu konzentrieren, wodurch Forscher die inhärenten Fähigkeiten von LRMs in Aufgaben des langanhaltenden Denkens untersuchen können. Die Ergebnisse zeigen einen konsistenten Leistungsabfall, je länger der erforderliche Lösungsweg ist.

Die Modelle hatten erhebliche Schwierigkeiten mit Rätseln, die mehr als 25 Züge erforderten.
Der Leistungsrückgang deutet auf Einschränkungen hin, wie LRMs zukünftige Zustände projizieren können.

Das Forschungsteam integrierte Werkzeuge zur Analyse und Lösung der Planning Domain Definition Language (PDDL) in die LRMs, was zu moderaten Leistungsverbesserungen führte, jedoch nicht die beobachteten Defizite vollständig ausglich.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

SokoBench: Bewertung von Langzeitplanung und -argumentation in großen Sprachmodellen

SokoBench Benchmark Bewertet Langfristige Planung in Großen Sprachmodellen

Ergebnisse des Benchmarks

Verwandte Themen:

Artikel teilen