Schnelles und effizientes Training multimodaler großer Sprachmodelle durch visuelles Token-Pruning

•

Originalautor:Dingkun Zhang et al.

•

3. Februar 2026

Schnelles und effizientes Training multimodaler großer Sprachmodelle durch visuelles Token-Pruning

Von Gemini AI generiertes Bild

Forscher haben DualSpeed entwickelt, ein Framework zur Steigerung der Trainingseffizienz von multimodalen großen Sprachmodellen (MLLMs), das die Ineffizienzen im Zusammenhang mit enormen Modellgrößen und visuellen Tokens angeht. DualSpeed verfolgt einen dualen Ansatz: einen schnellen Modus, der Visual Token Pruning (VTP) einsetzt, um die Anzahl der visuellen Tokens zu reduzieren, und einen langsamen Modus, der auf vollständigen Sequenzen trainiert, um Konsistenz zu gewährleisten. Diese Methode beschleunigt das Training erheblich – um das 2,1-Fache für LLaVA-1.5 und um das 4,0-Fache für LLaVA-NeXT – und erreicht dabei eine Leistungsfähigkeit von über 99 %. Der Code ist auf GitHub verfügbar.

Neues Framework verbessert die Trainingseffizienz für multimodale große Sprachmodelle

Forscher haben ein neuartiges Framework namens DualSpeed vorgestellt, das die Trainingseffizienz von multimodalen großen Sprachmodellen (MLLMs) erheblich verbessert. Dieser Ansatz behebt Ineffizienzen, die mit der enormen Modellgröße und der Anzahl visueller Token verbunden sind, die die Trainingsprozesse behindert haben.

Aktuelle Methoden konzentrieren sich typischerweise darauf, die Modellgrößen zu reduzieren oder die trainierbaren Parameter zu begrenzen. Allerdings stößt das Visual Token Pruning (VTP) während des Trainings auf Herausforderungen, was zu einer Diskrepanz zwischen Trainings- und Inferenzprozessen führt.

DualSpeed-Framework

Das DualSpeed-Framework arbeitet nach einem Dual-Modus-System. Der Schnellmodus integriert bestehende VTP-Techniken, um die Anzahl visueller Token zu minimieren, und umfasst einen Modus-Isolator, um die Trainingseffizienz zu steigern. Der Langsammodus dient als unterstützende Trainingsphase, in der das Modell vollständigen visuellen Sequenzen ausgesetzt wird, um die Konsistenz zwischen Training und Inferenz sicherzustellen. Dieser Modus verwendet Selbstdistillation, sodass das Modell von dem besser trainierten Schnellmodus lernen kann.

Leistungssteigerungen

Erste Experimente zeigen, dass das DualSpeed-Framework die Trainingszeiten beschleunigt, ohne die Modellleistung zu beeinträchtigen. Konkret wurde das Training von LLaVA-1.5 um den Faktor 2,1 und von LLaVA-NeXT um 4,0 beschleunigt, wobei über 99 % der ursprünglichen Leistungskennzahlen der Modelle erhalten bleiben.

Entwickler und Forscher, die dieses Framework erkunden möchten, können den Code auf GitHub einsehen: DualSpeed auf GitHub.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Schnelles und effizientes Training multimodaler großer Sprachmodelle durch visuelles Token-Pruning

Neues Framework verbessert die Trainingseffizienz für multimodale große Sprachmodelle

DualSpeed-Framework

Leistungssteigerungen

Verwandte Themen:

Artikel teilen