Les modèles de langage visuel peuvent-ils apprendre la physique intuitive par l'interaction ?

Image générée par Gemini AI
Des recherches récentes montrent que les modèles de vision-langage pré-entraînés peinent à comprendre les intuitions liées au monde physique. Bien que le réglage fin supervisé améliore les performances sur des tâches simples, cela ne permet pas d'obtenir des règles physiques robustes et généralisables. Les expériences menées avec l'apprentissage par renforcement pour un entraînement basé sur l'interaction ont amélioré les performances spécifiques à certaines tâches, mais n'ont pas réussi à garantir la généralisation à des tâches connexes, même en présence de similarités visuelles et physiques.
Les modèles de langage visuel peinent avec la physique intuitive, révèle une recherche
Des recherches récentes indiquent que les modèles de langage visuel pré-entraînés manquent d'une compréhension fondamentale des dynamiques physiques, malgré les efforts pour améliorer leurs capacités par le biais d'un affinage supervisé. Ces modèles montrent une performance améliorée sur des tâches physiques de base, mais les améliorations ne s'étendent pas à des généralisations robustes dans des contextes variés.
Principales conclusions sur la performance des modèles
Un résultat significatif est que les modèles entraînés sur des tâches spécifiques échouent à transférer efficacement leur apprentissage vers des tâches connexes, même lorsque ces tâches partagent des statistiques visuelles similaires et des principes physiques sous-jacents. Cet écart souligne les limites des méthodologies d'entraînement actuelles qui reposent sur l'interaction sans favoriser une compréhension plus large.
Bien que l'apprentissage par renforcement puisse améliorer la performance immédiate sur les tâches, il n'équipe pas les modèles des outils nécessaires pour appliquer les concepts appris dans des scénarios divers. Cela soulève des questions sur l'efficacité des cadres d'entraînement existants pour développer la physique intuitive dans les systèmes d'IA.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.06033v1
Tous les droits et crédits appartiennent à l'éditeur original.