AI
AI新闻

MHA2MLA-VLM:推动DeepSeek的经济型多头潜在注意力在视觉-语言模型中的应用

Source:arXiv
原作者:Xiaoran Fan et al.
MHA2MLA-VLM:推动DeepSeek的经济型多头潜在注意力在视觉-语言模型中的应用

Gemini AI生成的图像

研究人员开发了MHA2MLA-VLM框架,该框架能够高效地将现有的视觉语言模型(VLM)转换为使用多头潜在注意力(MLA),从而解决推理过程中的内存和计算挑战。该框架采用了一种模态自适应的部分RoPE策略,以及对KV空间的低秩近似,从而实现有效的压缩。该方法通过微调来最小化适应成本,能够在数据有限的情况下恢复模型性能。实验表明,在保持模型有效性的同时,KV缓存的大小显著减少,促进了与KV量化的更好整合。

MHA2MLA-VLM:视觉-语言模型效率的突破

研究人员揭示了MHA2MLA-VLM,这是一个旨在通过多头潜在注意力(MLA)提高视觉-语言模型(VLM)效率的框架。这一发展解决了VLM在推理过程中与键值(KV)缓存相关的内存和计算挑战。

MHA2MLA-VLM框架引入了两种创新技术,旨在优化KV缓存:

  • 模态自适应部分-旋转位置编码策略:该技术选择性地屏蔽非必要维度,以兼容不同设置。
  • 模态解耦低秩近似:该方法独立压缩视觉和文本的KV空间,从而提高效率。

在三个VLM上的广泛实验表明,MHA2MLA-VLM在最小化监督数据的情况下恢复了原始模型性能,并显著减少了KV缓存的占用空间。

相关主题:

MHA2MLA-VLM多头潜在注意力视觉语言模型KV缓存参数高效

📰 原始来源: https://arxiv.org/abs/2601.11464v1

所有权利和署名均属于原出版商。

分享此文章