MHA2MLA-VLM: Обеспечение экономичной многоглавой латентной внимательности DeepSeek в моделях визуального и языкового восприятия

•

Оригинальный автор:Xiaoran Fan et al.

•

16 января 2026 г.

MHA2MLA-VLM: Обеспечение экономичной многоглавой латентной внимательности DeepSeek в моделях визуального и языкового восприятия

Изображение создано Gemini AI

Исследователи разработали MHA2MLA-VLM — фреймворк, который эффективно преобразует существующие модели связи между изображениями и языком (VLM) для использования многоголовой латентной внимательности (MLA). Это решение направлено на преодоление проблем с памятью и вычислительными затратами во время инференса. В рамках работы применяется стратегия адаптивного частичного RoPE для различных модальностей и аппроксимация низкого ранга для пространств ключей и значений (KV), что позволяет эффективно сжимать данные. Метод минимизирует затраты на адаптацию с помощью дообучения, достигая восстановления производительности при ограниченном объеме данных. Эксперименты демонстрируют значительное сокращение размера кеша KV при сохранении эффективности модели, что упрощает интеграцию с квантованием KV.

MHA2MLA-VLM: Прорыв в эффективности моделей зрения-языка

Исследователи представили MHA2MLA-VLM, фреймворк, предназначенный для повышения эффективности моделей зрения-языка (VLM) с помощью Многоглавого Латентного Внимания (MLA). Эта разработка решает проблемы памяти и вычислений, связанные с кэшами ключ-значение (KV) в VLM во время вывода.

Фреймворк MHA2MLA-VLM вводит две инновационные техники, направленные на оптимизацию кэша KV:

Стратегия Модальности-Адаптивного Частичного RoPE: Эта техника выборочно маскирует несущественные размеры для совместимости с различными настройками.
Метод Модальности-Разделенной Низкоранговой Аппроксимации: Этот метод независимо сжимает визуальные и текстовые пространства KV, повышая эффективность.

Обширные эксперименты на трех VLM показывают, что MHA2MLA-VLM восстанавливает оригинальную производительность модели при минимальных объемах обучающих данных и значительно уменьшает объем кэша KV.

Связанные темы:

MHA2MLA-VLMмногоголовая латентная внимательностьмодели "видео-язык"кэш ключ-значениеэкономичная настройка параметров

📰 Первоисточник: https://arxiv.org/abs/2601.11464v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit