AI
KI-Nachrichten

MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

Source:arXiv
Originalautor:Xiaoran Fan et al.
MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

Von Gemini AI generiertes Bild

Forscher haben MHA2MLA-VLM entwickelt, ein Framework, das bestehende multimodale Sprach- und Bildmodelle (VLMs) effizient in die Lage versetzt, Multi-Head Latent Attention (MLA) zu nutzen. Damit werden Speicher- und Rechenherausforderungen während der Inferenz adressiert. Das Framework verwendet eine modalitätsadaptive partielle RoPE-Strategie sowie eine Niedrig-Rang-Näherung für KV-Räume, was eine effektive Kompression ermöglicht. Durch Feintuning werden die Anpassungskosten minimiert, wodurch eine Wiederherstellung der Leistung mit begrenzten Daten erreicht wird. Experimente zeigen signifikante Reduzierungen der KV-Cache-Größe, während die Effektivität des Modells erhalten bleibt, was eine bessere Integration mit der KV-Quantisierung erleichtert.

MHA2MLA-VLM: Ein Durchbruch in der Effizienz von Vision-Language-Modellen

Forscher haben MHA2MLA-VLM vorgestellt, ein Framework, das entwickelt wurde, um die Effizienz von Vision-Language-Modellen (VLMs) durch Multi-Head Latent Attention (MLA) zu verbessern. Diese Entwicklung adressiert die Speicher- und Rechenherausforderungen, die mit Key-Value (KV) Caches in VLMs während der Inferenz verbunden sind.

Das MHA2MLA-VLM-Framework führt zwei innovative Techniken ein, die darauf abzielen, den KV-Cache zu optimieren:

  • Modality-Adaptive Partial-RoPE-Strategie: Diese Technik maskiert selektiv nicht wesentliche Dimensionen, um die Kompatibilität mit verschiedenen Einstellungen zu gewährleisten.
  • Modality-Decoupled Low-Rank Approximation: Diese Methode komprimiert die visuellen und textuellen KV-Räume unabhängig voneinander, wodurch die Effizienz gesteigert wird.

Umfassende Experimente an drei VLMs zeigen, dass MHA2MLA-VLM die ursprüngliche Modellleistung mit minimalen überwachten Daten wiederherstellt und gleichzeitig den KV-Cache-Fußabdruck erheblich reduziert.

Verwandte Themen:

MHA2MLA-VLMMulti-Head Latent AttentionVision-Language-ModelleKV Cacheparameter-effizientes Fine-Tuning

📰 Originalquelle: https://arxiv.org/abs/2601.11464v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen