Können visuelle Sprachmodelle intuitive Physik durch Interaktion erlernen?

Von Gemini AI generiertes Bild
Aktuelle Forschungsergebnisse zeigen, dass vortrainierte Vision-Language-Modelle Schwierigkeiten mit intuitiven Konzepten der physischen Welt haben. Obwohl eine überwachte Feinabstimmung die Leistung bei einfachen Aufgaben verbessert, führt sie nicht zu robusten, verallgemeinerbaren physikalischen Regeln. Experimente, die Verstärkungslernen für interaktionsbasiertes Training nutzten, verbesserten die aufgabenspezifische Leistung, konnten jedoch keine Verallgemeinerung auf verwandte Aufgaben gewährleisten, selbst wenn visuelle und physikalische Ähnlichkeiten vorhanden waren.
Forschung zeigt, dass Vision Language Modelle mit intuitiver Physik kämpfen
Neueste Forschungen zeigen, dass vortrainierte Vision Language Modelle ein grundlegendes Verständnis physikalischer Dynamiken vermissen, trotz der Bemühungen, ihre Fähigkeiten durch überwachte Feinabstimmung zu verbessern. Diese Modelle zeigen eine verbesserte Leistung bei grundlegenden physikalischen Aufgaben, doch die Verbesserungen erstrecken sich nicht auf robuste Verallgemeinerungen in unterschiedlichen Kontexten.
Wesentliche Ergebnisse zur Modellleistung
Ein bedeutendes Ergebnis ist, dass Modelle, die auf spezifische Aufgaben trainiert wurden, ihr Wissen nicht effektiv auf verwandte Aufgaben übertragen können, selbst wenn diese Aufgaben ähnliche visuelle Statistiken und zugrunde liegende physikalische Prinzipien teilen. Diese Lücke unterstreicht die Einschränkungen der aktuellen Trainingsmethoden, die auf Interaktion setzen, ohne ein umfassenderes Verständnis zu fördern.
Obwohl Reinforcement Learning die unmittelbare Leistung bei Aufgaben verbessern kann, stattet es die Modelle nicht mit den Werkzeugen aus, um erlernte Konzepte in verschiedenen Szenarien anzuwenden. Dies wirft Fragen zur Wirksamkeit bestehender Trainingsrahmen für die Entwicklung intuitiver Physik in KI-Systemen auf.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.06033v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.