MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

Von Gemini AI generiertes Bild
Forscher haben MHA2MLA-VLM entwickelt, ein Framework, das bestehende multimodale Sprach- und Bildmodelle (VLMs) effizient in die Lage versetzt, Multi-Head Latent Attention (MLA) zu nutzen. Damit werden Speicher- und Rechenherausforderungen während der Inferenz adressiert. Das Framework verwendet eine modalitätsadaptive partielle RoPE-Strategie sowie eine Niedrig-Rang-Näherung für KV-Räume, was eine effektive Kompression ermöglicht. Durch Feintuning werden die Anpassungskosten minimiert, wodurch eine Wiederherstellung der Leistung mit begrenzten Daten erreicht wird. Experimente zeigen signifikante Reduzierungen der KV-Cache-Größe, während die Effektivität des Modells erhalten bleibt, was eine bessere Integration mit der KV-Quantisierung erleichtert.
MHA2MLA-VLM: Ein Durchbruch in der Effizienz von Vision-Language-Modellen
Forscher haben MHA2MLA-VLM vorgestellt, ein Framework, das entwickelt wurde, um die Effizienz von Vision-Language-Modellen (VLMs) durch Multi-Head Latent Attention (MLA) zu verbessern. Diese Entwicklung adressiert die Speicher- und Rechenherausforderungen, die mit Key-Value (KV) Caches in VLMs während der Inferenz verbunden sind.
Das MHA2MLA-VLM-Framework führt zwei innovative Techniken ein, die darauf abzielen, den KV-Cache zu optimieren:
- Modality-Adaptive Partial-RoPE-Strategie: Diese Technik maskiert selektiv nicht wesentliche Dimensionen, um die Kompatibilität mit verschiedenen Einstellungen zu gewährleisten.
- Modality-Decoupled Low-Rank Approximation: Diese Methode komprimiert die visuellen und textuellen KV-Räume unabhängig voneinander, wodurch die Effizienz gesteigert wird.
Umfassende Experimente an drei VLMs zeigen, dass MHA2MLA-VLM die ursprüngliche Modellleistung mit minimalen überwachten Daten wiederherstellt und gleichzeitig den KV-Cache-Fußabdruck erheblich reduziert.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.11464v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.