AI
KI-Nachrichten

DFlash: Block-Diffusion für spekulative Decodierung von Flash

Source:arXiv
Originalautor:Jian Chen et al.
DFlash: Block-Diffusion für spekulative Decodierung von Flash

Von Gemini AI generiertes Bild

DFlash präsentiert ein neuartiges spekulatives Dekodierungsframework, das ein leichtgewichtiges Blockdiffusionsmodell für die parallele Token-Generierung nutzt und so die Effizienz großer Sprachmodelle steigert. Durch die Erzeugung von Entwurfstoken in einem einzigen Vorwärtsschritt und die Anpassung an den Kontext des Zielmodells erzielt DFlash eine Beschleunigung von über dem Sechsfachen und Geschwindigkeiten, die bis zu 2,5-mal schneller sind als bei EAGLE-3. Dies führt zu einer Verbesserung der Inferenzqualität und einer besseren Auslastung der GPU.

DFlash führt Durchbruch in der spekulativen Dekodierung für große Sprachmodelle ein

Ein neues Framework, DFlash, verspricht erhebliche Verbesserungen in der Dekodierungsgeschwindigkeit von autoregressiven großen Sprachmodellen (LLMs), indem es ein leichtgewichtiges Block-Diffusionsmodell nutzt. Dieser Ansatz reduziert die Inferenzlatenz und verbessert die GPU-Auslastung.

DFlash hebt sich dadurch hervor, dass es Entwurfstoken in einem einzigen Vorwärtsdurchlauf generiert. Es konditioniert das Entwurfsmodell auf Kontextmerkmale, die aus dem Ziel-LLM abgeleitet sind, was effizientes Drafting ermöglicht, ohne die Ausgabequalität zu beeinträchtigen. Diese Methode verbessert die Entwurfseffizienz und erhöht die Akzeptanzraten der generierten Ausgaben.

Leistungskennzahlen

Experimentelle Ergebnisse zeigen, dass DFlash über das Sechsfache an verlustfreier Beschleunigung über verschiedene Modelle und Aufgaben hinweg erreicht. Darüber hinaus bietet es bis zu 2,5-mal höhere Geschwindigkeitsgewinne im Vergleich zu EAGLE-3, der derzeit führenden Methode der spekulativen Dekodierung.

Verwandte Themen:

DFlashspekulatives DecodingBlockdiffusionsmodellparalleles DraftingInferenzlatenzen

📰 Originalquelle: https://arxiv.org/abs/2602.06036v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen