MHA2MLA-VLM：推动DeepSeek的经济型多头潜在注意力在视觉-语言模型中的应用

•

原作者:Xiaoran Fan et al.

•

2026年1月16日

MHA2MLA-VLM：推动DeepSeek的经济型多头潜在注意力在视觉-语言模型中的应用

Gemini AI生成的图像

研究人员开发了MHA2MLA-VLM框架，该框架能够高效地将现有的视觉语言模型（VLM）转换为使用多头潜在注意力（MLA），从而解决推理过程中的内存和计算挑战。该框架采用了一种模态自适应的部分RoPE策略，以及对KV空间的低秩近似，从而实现有效的压缩。该方法通过微调来最小化适应成本，能够在数据有限的情况下恢复模型性能。实验表明，在保持模型有效性的同时，KV缓存的大小显著减少，促进了与KV量化的更好整合。

MHA2MLA-VLM：视觉-语言模型效率的突破

研究人员揭示了MHA2MLA-VLM，这是一个旨在通过多头潜在注意力（MLA）提高视觉-语言模型（VLM）效率的框架。这一发展解决了VLM在推理过程中与键值（KV）缓存相关的内存和计算挑战。

MHA2MLA-VLM框架引入了两种创新技术，旨在优化KV缓存：

模态自适应部分-旋转位置编码策略：该技术选择性地屏蔽非必要维度，以兼容不同设置。
模态解耦低秩近似：该方法独立压缩视觉和文本的KV空间，从而提高效率。

在三个VLM上的广泛实验表明，MHA2MLA-VLM在最小化监督数据的情况下恢复了原始模型性能，并显著减少了KV缓存的占用空间。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

MHA2MLA-VLM：推动DeepSeek的经济型多头潜在注意力在视觉-语言模型中的应用

MHA2MLA-VLM：视觉-语言模型效率的突破

相关主题：

分享此文章