I modelli di linguaggio visivo possono apprendere la fisica intuitiva attraverso l'interazione?

Immagine generata da Gemini AI
Ricerche recenti indicano che i modelli di visione-linguaggio pre-addestrati hanno difficoltà con le intuizioni relative al mondo fisico. Sebbene il fine-tuning supervisionato migliori le prestazioni su compiti semplici, non produce regole fisiche robuste e generalizzabili. Esperimenti che hanno utilizzato il reinforcement learning per un addestramento basato sull'interazione hanno migliorato le prestazioni su compiti specifici, ma non sono riusciti a garantire la generalizzazione tra compiti correlati, anche in presenza di somiglianze visive e fisiche.
I Modelli di Linguaggio Visivo Faticano con la Fisica Intuitiva, Rivela la Ricerca
Recenti ricerche indicano che i modelli di linguaggio visivo pre-addestrati mancano di una comprensione fondamentale della dinamica fisica, nonostante gli sforzi per migliorare le loro capacità attraverso il fine-tuning supervisionato. Questi modelli mostrano prestazioni migliorate in compiti fisici di base, ma i miglioramenti non si estendono a generalizzazioni robuste in contesti variati.
Risultati Chiave sulle Prestazioni dei Modelli
Un risultato significativo è che i modelli addestrati su compiti specifici non riescono a trasferire efficacemente il loro apprendimento a compiti correlati, anche quando questi ultimi condividono statistiche visive simili e principi fisici sottostanti. Questa lacuna sottolinea i limiti delle attuali metodologie di addestramento che si basano sull'interazione senza promuovere una comprensione più ampia.
Sebbene l'apprendimento per rinforzo possa migliorare le prestazioni immediate in un compito, non fornisce ai modelli gli strumenti per applicare i concetti appresi in scenari diversi. Questo solleva interrogativi sull'efficacia dei framework di addestramento esistenti per sviluppare la fisica intuitiva nei sistemi di intelligenza artificiale.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.06033v1
Tutti i diritti e i crediti appartengono all'editore originale.