AI
Actualités IA

MHA2MLA-VLM : Activation de l'attention latente multi-tête économique de DeepSeek au sein des modèles vision-langage

Source:arXiv
Auteur original:Xiaoran Fan et al.
MHA2MLA-VLM : Activation de l'attention latente multi-tête économique de DeepSeek au sein des modèles vision-langage

Image générée par Gemini AI

Des chercheurs ont développé le cadre MHA2MLA-VLM, qui permet de convertir efficacement les modèles de vision-langage (VLM) existants pour tirer parti de l'attention latente multi-tête (MLA). Cette approche répond aux défis liés à la mémoire et à la puissance de calcul lors de l'inférence. Elle utilise une stratégie d'adaptation modale partielle de RoPE et une approximation à faible rang pour les espaces KV, permettant une compression efficace. La méthode réduit les coûts d'adaptation grâce à un ajustement fin, permettant ainsi de restaurer les performances avec un volume de données limité. Les expériences montrent des réductions significatives de la taille du cache KV tout en maintenant l'efficacité du modèle, facilitant ainsi une meilleure intégration avec la quantification KV.

MHA2MLA-VLM : Une Percée dans l'Efficacité des Modèles Vision-Langage

Des chercheurs ont dévoilé MHA2MLA-VLM, un cadre conçu pour améliorer l'efficacité des modèles vision-langage (VLM) grâce à l'Attention Latente Multi-Tête (MLA). Ce développement répond aux défis de mémoire et de calcul associés aux caches Clé-Valeur (KV) dans les VLM lors de l'inférence.

Le cadre MHA2MLA-VLM introduit deux techniques innovantes visant à optimiser le cache KV :

  • Stratégie Partielle-RoPE Adaptative par Modalité : Cette technique masque sélectivement les dimensions non essentielles pour assurer la compatibilité avec divers paramètres.
  • Approximation à Bas Rang Découplée par Modalité : Cette méthode compresse les espaces KV visuels et textuels de manière indépendante, améliorant ainsi l'efficacité.

Des expériences approfondies sur trois VLM montrent que MHA2MLA-VLM restaure la performance originale du modèle avec un minimum de données supervisées et réduit considérablement l'empreinte du cache KV.

Sujets connexes :

MHA2MLA-VLMAttention Latente Multi-Têtemodèles vision-langagecache Key-Valueajustement fin économe

📰 Source originale : https://arxiv.org/abs/2601.11464v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article