Formazione Efficiente Veloce-Lenta per Modelli Linguistici Multimodali di Grandi Dimensioni attraverso la Potatura dei Token Visivi

•

Autore originale:Dingkun Zhang et al.

•

3 febbraio 2026

Formazione Efficiente Veloce-Lenta per Modelli Linguistici Multimodali di Grandi Dimensioni attraverso la Potatura dei Token Visivi

Immagine generata da Gemini AI

I ricercatori hanno sviluppato DualSpeed, un framework progettato per migliorare l'efficienza del training dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) affrontando le inefficienze legate alle enormi dimensioni dei modelli e ai token visivi. DualSpeed adotta un approccio a doppio regime: una modalità rapida che utilizza il Visual Token Pruning (VTP) per ridurre i token visivi, e una modalità lenta che si allena su sequenze complete per garantire coerenza. Questo metodo accelera significativamente il processo di addestramento—di 2,1 volte per LLaVA-1.5 e di 4,0 volte per LLaVA-NeXT—mantenendo oltre il 99% delle prestazioni. Il codice è disponibile su GitHub.

Un Nuovo Framework Migliora l'Efficienza di Addestramento per i Modelli di Linguaggio Multimodali di Grandi Dimensioni

I ricercatori hanno svelato un nuovo framework chiamato DualSpeed che migliora significativamente l'efficienza di addestramento dei Modelli di Linguaggio Multimodali di Grandi Dimensioni (MLLM). Questo approccio affronta le inefficienze associate alle dimensioni massicce del modello e al numero di token visivi che hanno ostacolato i processi di addestramento.

I metodi attuali si concentrano tipicamente sulla riduzione delle dimensioni del modello o sulla limitazione dei parametri addestrabili. Tuttavia, il Potenziamento dei Token Visivi (VTP) presenta sfide quando applicato durante l'addestramento, portando a una discrepanza tra i processi di addestramento e inferenza.

Framework DualSpeed

Il framework DualSpeed opera su un sistema a doppio modo. La modalità veloce integra tecniche VTP esistenti per ridurre il numero di token visivi e include un isolatore di modalità per migliorare l'efficienza di addestramento. La modalità lenta funge da fase di addestramento ausiliaria in cui il modello è esposto a sequenze visive complete, garantendo coerenza tra addestramento e inferenza. Questa modalità impiega l'auto-distillazione, consentendo al modello di apprendere dalla modalità veloce meglio addestrata.

Incrementi delle Prestazioni

Esperimenti iniziali dimostrano che il framework DualSpeed accelera i tempi di addestramento senza compromettere le prestazioni del modello. In particolare, l'addestramento di LLaVA-1.5 è stato accelerato di un fattore di 2.1 e LLaVA-NeXT di 4.0, mantenendo oltre il 99% delle metriche di prestazione originali dei modelli.

Sviluppatori e ricercatori interessati a esplorare questo framework possono accedere al codice su GitHub: DualSpeed su GitHub.

Argomenti correlati:

Modelli di Linguaggio MultimodaliPotatura dei Token VisiviDualSpeedaddestramento efficienteself-distillation

📰 Fonte originale: https://arxiv.org/abs/2602.03815v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit