MHA2MLA-VLM: Abilitazione dell'Attenzione Latente Multi-Testa Economica di DeepSeek nei Modelli Vision-Language

•

Autore originale:Xiaoran Fan et al.

•

16 gennaio 2026

MHA2MLA-VLM: Abilitazione dell'Attenzione Latente Multi-Testa Economica di DeepSeek nei Modelli Vision-Language

Immagine generata da Gemini AI

I ricercatori hanno sviluppato MHA2MLA-VLM, un framework che converte in modo efficiente i modelli di visione-linguaggio (VLM) esistenti per utilizzare l'Attenzione Latente Multi-Head (MLA), affrontando le sfide legate alla memoria e ai calcoli durante l'inferenza. Il framework adotta una strategia parziale di RoPE adattativa per le modalità e un'approssimazione a basso rango per gli spazi KV, consentendo una compressione efficace. Il metodo riduce i costi di adattamento tramite un fine-tuning, riuscendo a ripristinare le prestazioni con dati limitati. Gli esperimenti mostrano una significativa riduzione delle dimensioni della cache KV, mantenendo l'efficacia del modello e facilitando una migliore integrazione con la quantizzazione KV.

MHA2MLA-VLM: Una Svolta nell'Efficienza dei Modelli Vision-Language

I ricercatori hanno svelato MHA2MLA-VLM, un framework progettato per migliorare l'efficienza dei modelli vision-language (VLM) attraverso l'Attenzione Latente Multi-Head (MLA). Questo sviluppo affronta le sfide di memoria e calcolo associate ai cache Key-Value (KV) nei VLM durante l'inferenza.

Il framework MHA2MLA-VLM introduce due tecniche innovative mirate a ottimizzare il cache KV:

Strategia Modale-Adattiva Partial-RoPE: Questa tecnica maschera selettivamente le dimensioni non essenziali per garantire compatibilità con diverse impostazioni.
Approssimazione a Basso Rango Decoupled per le Modalità: Questo metodo comprime gli spazi KV visivi e testuali in modo indipendente, migliorando l'efficienza.

Esperimenti approfonditi su tre VLM dimostrano che MHA2MLA-VLM ripristina le prestazioni originali del modello con minimi dati supervisionati e riduce significativamente l'impatto del cache KV.

Argomenti correlati:

MHA2MLA-VLMAttenzione Latente Multi-Headmodelli vision-languagecompressione cache Key-Valuefine-tuning a parametri efficienti

📰 Fonte originale: https://arxiv.org/abs/2601.11464v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit