MHA2MLA-VLM: Обеспечение экономичной многоглавой латентной внимательности DeepSeek в моделях визуального и языкового восприятия

Изображение создано Gemini AI
Исследователи разработали MHA2MLA-VLM — фреймворк, который эффективно преобразует существующие модели связи между изображениями и языком (VLM) для использования многоголовой латентной внимательности (MLA). Это решение направлено на преодоление проблем с памятью и вычислительными затратами во время инференса. В рамках работы применяется стратегия адаптивного частичного RoPE для различных модальностей и аппроксимация низкого ранга для пространств ключей и значений (KV), что позволяет эффективно сжимать данные. Метод минимизирует затраты на адаптацию с помощью дообучения, достигая восстановления производительности при ограниченном объеме данных. Эксперименты демонстрируют значительное сокращение размера кеша KV при сохранении эффективности модели, что упрощает интеграцию с квантованием KV.
MHA2MLA-VLM: Прорыв в эффективности моделей зрения-языка
Исследователи представили MHA2MLA-VLM, фреймворк, предназначенный для повышения эффективности моделей зрения-языка (VLM) с помощью Многоглавого Латентного Внимания (MLA). Эта разработка решает проблемы памяти и вычислений, связанные с кэшами ключ-значение (KV) в VLM во время вывода.
Фреймворк MHA2MLA-VLM вводит две инновационные техники, направленные на оптимизацию кэша KV:
- Стратегия Модальности-Адаптивного Частичного RoPE: Эта техника выборочно маскирует несущественные размеры для совместимости с различными настройками.
- Метод Модальности-Разделенной Низкоранговой Аппроксимации: Этот метод независимо сжимает визуальные и текстовые пространства KV, повышая эффективность.
Обширные эксперименты на трех VLM показывают, что MHA2MLA-VLM восстанавливает оригинальную производительность модели при минимальных объемах обучающих данных и значительно уменьшает объем кэша KV.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.11464v1
Все права и авторство принадлежат первоначальному издателю.