MHA2MLA-VLM: Habilitando a Atenção Latente Multi-Cabeça Econômica da DeepSeek em Modelos de Visão-Linguagem

•

Autor original:Xiaoran Fan et al.

•

16 de janeiro de 2026

MHA2MLA-VLM: Habilitando a Atenção Latente Multi-Cabeça Econômica da DeepSeek em Modelos de Visão-Linguagem

Imagem gerada por Gemini AI

Pesquisadores desenvolveram o MHA2MLA-VLM, uma estrutura que converte de maneira eficiente modelos de visão-linguagem (VLMs) existentes para utilizar a Atenção Latente Multi-Cabeça (MLA), abordando desafios de memória e computação durante a inferência. O método emprega uma estratégia adaptativa de RoPE parcial e uma aproximação de baixa classificação para os espaços KV, permitindo uma compressão eficaz. Além disso, minimiza os custos de adaptação por meio de ajuste fino, alcançando a restauração de desempenho com um conjunto de dados limitado. Experimentos demonstraram reduções significativas no tamanho do cache KV, mantendo a eficácia do modelo e facilitando uma melhor integração com a quantização KV.

MHA2MLA-VLM: Uma Revolução na Eficiência de Modelos de Visão-Linguagem

Pesquisadores apresentaram o MHA2MLA-VLM, uma estrutura projetada para aumentar a eficiência dos modelos de visão-linguagem (VLMs) por meio da Atenção Latente de Múltiplas Cabeças (MLA). Este desenvolvimento aborda os desafios de memória e computação associados aos caches de Chave-Valor (KV) em VLMs durante a inferência.

A estrutura MHA2MLA-VLM introduz duas técnicas inovadoras destinadas a otimizar o cache KV:

Estratégia de RoPE Parcial Adaptativa por Modalidade: Esta técnica mascara seletivamente dimensões não essenciais para compatibilidade com diversos cenários.
Aproximação de Baixa Classificação Desacoplada por Modalidade: Este método comprime os espaços KV visuais e textuais de forma independente, aumentando a eficiência.

Experimentos extensivos em três VLMs demonstram que o MHA2MLA-VLM restaura o desempenho original do modelo com dados supervisionados mínimos e diminui significativamente a pegada do cache KV.

Tópicos relacionados:

MHA2MLA-VLMAtenção Latente Multi-Cabeçamodelos de visão-linguagemcompressão do cache KVajuste fino eficiente.

📰 Fonte original: https://arxiv.org/abs/2601.11464v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit