MHA2MLA-VLM: Habilitando a Atenção Latente Multi-Cabeça Econômica da DeepSeek em Modelos de Visão-Linguagem

Imagem gerada por Gemini AI
Pesquisadores desenvolveram o MHA2MLA-VLM, uma estrutura que converte de maneira eficiente modelos de visão-linguagem (VLMs) existentes para utilizar a Atenção Latente Multi-Cabeça (MLA), abordando desafios de memória e computação durante a inferência. O método emprega uma estratégia adaptativa de RoPE parcial e uma aproximação de baixa classificação para os espaços KV, permitindo uma compressão eficaz. Além disso, minimiza os custos de adaptação por meio de ajuste fino, alcançando a restauração de desempenho com um conjunto de dados limitado. Experimentos demonstraram reduções significativas no tamanho do cache KV, mantendo a eficácia do modelo e facilitando uma melhor integração com a quantização KV.
MHA2MLA-VLM: Uma Revolução na Eficiência de Modelos de Visão-Linguagem
Pesquisadores apresentaram o MHA2MLA-VLM, uma estrutura projetada para aumentar a eficiência dos modelos de visão-linguagem (VLMs) por meio da Atenção Latente de Múltiplas Cabeças (MLA). Este desenvolvimento aborda os desafios de memória e computação associados aos caches de Chave-Valor (KV) em VLMs durante a inferência.
A estrutura MHA2MLA-VLM introduz duas técnicas inovadoras destinadas a otimizar o cache KV:
- Estratégia de RoPE Parcial Adaptativa por Modalidade: Esta técnica mascara seletivamente dimensões não essenciais para compatibilidade com diversos cenários.
- Aproximação de Baixa Classificação Desacoplada por Modalidade: Este método comprime os espaços KV visuais e textuais de forma independente, aumentando a eficiência.
Experimentos extensivos em três VLMs demonstram que o MHA2MLA-VLM restaura o desempenho original do modelo com dados supervisionados mínimos e diminui significativamente a pegada do cache KV.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2601.11464v1
Todos os direitos e créditos pertencem ao editor original.