MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

•

Originalautor:Xiaoran Fan et al.

•

16. Januar 2026

MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

Von Gemini AI generiertes Bild

Forscher haben MHA2MLA-VLM entwickelt, ein Framework, das bestehende multimodale Sprach- und Bildmodelle (VLMs) effizient in die Lage versetzt, Multi-Head Latent Attention (MLA) zu nutzen. Damit werden Speicher- und Rechenherausforderungen während der Inferenz adressiert. Das Framework verwendet eine modalitätsadaptive partielle RoPE-Strategie sowie eine Niedrig-Rang-Näherung für KV-Räume, was eine effektive Kompression ermöglicht. Durch Feintuning werden die Anpassungskosten minimiert, wodurch eine Wiederherstellung der Leistung mit begrenzten Daten erreicht wird. Experimente zeigen signifikante Reduzierungen der KV-Cache-Größe, während die Effektivität des Modells erhalten bleibt, was eine bessere Integration mit der KV-Quantisierung erleichtert.

MHA2MLA-VLM: Ein Durchbruch in der Effizienz von Vision-Language-Modellen

Forscher haben MHA2MLA-VLM vorgestellt, ein Framework, das entwickelt wurde, um die Effizienz von Vision-Language-Modellen (VLMs) durch Multi-Head Latent Attention (MLA) zu verbessern. Diese Entwicklung adressiert die Speicher- und Rechenherausforderungen, die mit Key-Value (KV) Caches in VLMs während der Inferenz verbunden sind.

Das MHA2MLA-VLM-Framework führt zwei innovative Techniken ein, die darauf abzielen, den KV-Cache zu optimieren:

Modality-Adaptive Partial-RoPE-Strategie: Diese Technik maskiert selektiv nicht wesentliche Dimensionen, um die Kompatibilität mit verschiedenen Einstellungen zu gewährleisten.
Modality-Decoupled Low-Rank Approximation: Diese Methode komprimiert die visuellen und textuellen KV-Räume unabhängig voneinander, wodurch die Effizienz gesteigert wird.

Umfassende Experimente an drei VLMs zeigen, dass MHA2MLA-VLM die ursprüngliche Modellleistung mit minimalen überwachten Daten wiederherstellt und gleichzeitig den KV-Cache-Fußabdruck erheblich reduziert.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

MHA2MLA-VLM: Ermöglichung von DeepSeek's ökonomischer Multi-Head Latent Attention in Vision-Language-Modellen

MHA2MLA-VLM: Ein Durchbruch in der Effizienz von Vision-Language-Modellen

Verwandte Themen:

Artikel teilen