DFlash: Block-Diffusion für spekulative Decodierung von Flash

Von Gemini AI generiertes Bild
DFlash präsentiert ein neuartiges spekulatives Dekodierungsframework, das ein leichtgewichtiges Blockdiffusionsmodell für die parallele Token-Generierung nutzt und so die Effizienz großer Sprachmodelle steigert. Durch die Erzeugung von Entwurfstoken in einem einzigen Vorwärtsschritt und die Anpassung an den Kontext des Zielmodells erzielt DFlash eine Beschleunigung von über dem Sechsfachen und Geschwindigkeiten, die bis zu 2,5-mal schneller sind als bei EAGLE-3. Dies führt zu einer Verbesserung der Inferenzqualität und einer besseren Auslastung der GPU.
DFlash führt Durchbruch in der spekulativen Dekodierung für große Sprachmodelle ein
Ein neues Framework, DFlash, verspricht erhebliche Verbesserungen in der Dekodierungsgeschwindigkeit von autoregressiven großen Sprachmodellen (LLMs), indem es ein leichtgewichtiges Block-Diffusionsmodell nutzt. Dieser Ansatz reduziert die Inferenzlatenz und verbessert die GPU-Auslastung.
DFlash hebt sich dadurch hervor, dass es Entwurfstoken in einem einzigen Vorwärtsdurchlauf generiert. Es konditioniert das Entwurfsmodell auf Kontextmerkmale, die aus dem Ziel-LLM abgeleitet sind, was effizientes Drafting ermöglicht, ohne die Ausgabequalität zu beeinträchtigen. Diese Methode verbessert die Entwurfseffizienz und erhöht die Akzeptanzraten der generierten Ausgaben.
Leistungskennzahlen
Experimentelle Ergebnisse zeigen, dass DFlash über das Sechsfache an verlustfreier Beschleunigung über verschiedene Modelle und Aufgaben hinweg erreicht. Darüber hinaus bietet es bis zu 2,5-mal höhere Geschwindigkeitsgewinne im Vergleich zu EAGLE-3, der derzeit führenden Methode der spekulativen Dekodierung.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.06036v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.