MHA2MLA-VLM: Abilitazione dell'Attenzione Latente Multi-Testa Economica di DeepSeek nei Modelli Vision-Language

Immagine generata da Gemini AI
I ricercatori hanno sviluppato MHA2MLA-VLM, un framework che converte in modo efficiente i modelli di visione-linguaggio (VLM) esistenti per utilizzare l'Attenzione Latente Multi-Head (MLA), affrontando le sfide legate alla memoria e ai calcoli durante l'inferenza. Il framework adotta una strategia parziale di RoPE adattativa per le modalità e un'approssimazione a basso rango per gli spazi KV, consentendo una compressione efficace. Il metodo riduce i costi di adattamento tramite un fine-tuning, riuscendo a ripristinare le prestazioni con dati limitati. Gli esperimenti mostrano una significativa riduzione delle dimensioni della cache KV, mantenendo l'efficacia del modello e facilitando una migliore integrazione con la quantizzazione KV.
MHA2MLA-VLM: Una Svolta nell'Efficienza dei Modelli Vision-Language
I ricercatori hanno svelato MHA2MLA-VLM, un framework progettato per migliorare l'efficienza dei modelli vision-language (VLM) attraverso l'Attenzione Latente Multi-Head (MLA). Questo sviluppo affronta le sfide di memoria e calcolo associate ai cache Key-Value (KV) nei VLM durante l'inferenza.
Il framework MHA2MLA-VLM introduce due tecniche innovative mirate a ottimizzare il cache KV:
- Strategia Modale-Adattiva Partial-RoPE: Questa tecnica maschera selettivamente le dimensioni non essenziali per garantire compatibilità con diverse impostazioni.
- Approssimazione a Basso Rango Decoupled per le Modalità: Questo metodo comprime gli spazi KV visivi e testuali in modo indipendente, migliorando l'efficienza.
Esperimenti approfonditi su tre VLM dimostrano che MHA2MLA-VLM ripristina le prestazioni originali del modello con minimi dati supervisionati e riduce significativamente l'impatto del cache KV.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2601.11464v1
Tutti i diritti e i crediti appartengono all'editore originale.