MHA2MLA-VLM: Facilitando la Atención Latente Multi-Cabeza Económica de DeepSeek en Modelos de Visión-Lenguaje

•

Autor original:Xiaoran Fan et al.

•

16 de enero de 2026

MHA2MLA-VLM: Facilitando la Atención Latente Multi-Cabeza Económica de DeepSeek en Modelos de Visión-Lenguaje

Imagen generada por Gemini AI

Investigadores han desarrollado MHA2MLA-VLM, un marco que convierte de manera eficiente los modelos de visión-lenguaje (VLM) existentes para utilizar la Atención Latente Multi-Cabeza (MLA), abordando los retos de memoria y computación en la inferencia. Este enfoque utiliza una estrategia adaptativa de modalidad con RoPE parcial y una aproximación de bajo rango para los espacios KV, lo que permite una compresión efectiva. El método minimiza los costos de adaptación a través de un ajuste fino, logrando restaurar el rendimiento con un conjunto de datos limitado. Los experimentos muestran reducciones significativas en el tamaño de la caché KV, al tiempo que se mantiene la efectividad del modelo, facilitando una mejor integración con la cuantización KV.

MHA2MLA-VLM: Un Avance en la Eficiencia de los Modelos de Visión-Lenguaje

Los investigadores han presentado MHA2MLA-VLM, un marco diseñado para mejorar la eficiencia de los modelos de visión-lenguaje (VLMs) a través de la Atención Latente de Múltiples Cabezas (MLA). Este desarrollo aborda los desafíos de memoria y computación asociados con las cachés de Clave-Valor (KV) en los VLMs durante la inferencia.

El marco MHA2MLA-VLM introduce dos técnicas innovadoras destinadas a optimizar la caché KV:

Estrategia de RoPE Parcial Adaptativa a la Modalidad: Esta técnica enmascara selectivamente dimensiones no esenciales para compatibilidad con varios ajustes.
Aproximación de Bajo Rango Desacoplada por Modalidad: Este método comprime los espacios KV visual y textual de manera independiente, mejorando la eficiencia.

Extensos experimentos en tres VLMs demuestran que MHA2MLA-VLM restaura el rendimiento original del modelo con una cantidad mínima de datos supervisados y reduce significativamente la huella de la caché KV.

Temas relacionados:

MHA2MLA-VLMAtención Latente Multi-Cabezamodelos de lenguaje y visióncaché de Clave-Valorajuste fino eficiente

📰 Fuente original: https://arxiv.org/abs/2601.11464v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit