视觉语言模型能通过交互学习直观物理知识吗？

•

原作者:Luca M. Schulze Buschoff et al.

•

2026年2月5日

Gemini AI生成的图像

最近的研究表明，预训练的视觉-语言模型在物理世界直觉方面存在困难。虽然监督微调可以提高在简单任务上的表现，但并未能产生稳健且可推广的物理规则。通过强化学习进行基于交互的训练的实验确实提升了特定任务的性能，但在相关任务之间的泛化能力仍然不足，即使在视觉和物理相似性存在的情况下也是如此。

研究揭示视觉语言模型在直观物理学方面的困难

最近的研究表明，尽管通过监督微调来增强其能力，预训练的视觉语言模型仍缺乏对物理动态的基本理解。这些模型在基本物理任务上的表现有所提升，但这种提升并未延伸至在多样化背景下的稳健泛化。

一个重要的结果是，针对特定任务训练的模型未能有效地将其学习转移到相关任务，即使这些任务具有相似的视觉统计和基本物理原理。这一差距凸显了目前依赖交互而未能促进更广泛理解的训练方法的局限性。

虽然强化学习可以提升即时任务表现，但它并没有为模型提供在多种场景中应用已学概念的工具。这引发了关于现有训练框架在发展AI系统直观物理能力上的有效性的质疑。