DAWN: Abhängigkeitsbewusste schnelle Inferenz für Diffusions-LLMs

•

Originalautor:Lizhuo Luo et al.

•

6. Februar 2026

DAWN: Abhängigkeitsbewusste schnelle Inferenz für Diffusions-LLMs

Von Gemini AI generiertes Bild

Der Artikel stellt DAWN vor, eine neue Methode zur Verbesserung der Inferenzgeschwindigkeit in diffusionsbasierten großen Sprachmodellen (dLLMs), ohne die Ausgabequalität zu beeinträchtigen. DAWN behebt die Ineffizienzen des herkömmlichen parallelen Decodings, indem es die Abhängigkeiten zwischen den Tokens modelliert, was zu einer zuverlässigeren Entmaskierung der Tokens führt. Experimentelle Ergebnisse zeigen, dass DAWN die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden um das 1,80- bis 8,06-Fache steigert, während die Qualität der Generierung erhalten bleibt. Der Code steht auf GitHub zur Verfügung, um die Implementierung zu erleichtern.

Neue Decodierungsmethode DAWN verbessert die Inferenzgeschwindigkeit für Diffusions-LLMs

Forscher haben DAWN eingeführt, eine neuartige Decodierungstechnik, die darauf abzielt, die Inferenzgeschwindigkeit für Diffusions große Sprachmodelle (dLLMs) zu optimieren. Diese Methode behebt die Ineffizienzen bestehender paralleler Decodierungsstrategien.

DAWN verwendet einen trainingsfreien, abhängigkeitssensitiven Ansatz, der ein Abhängigkeitsdiagramm erstellt, um die Beziehungen zwischen Tokens zu priorisieren. Es konzentriert sich auf zwei wichtige Erkenntnisse:

Positionen, die von bestimmten nicht maskierten Tokens abhängen, liefern zuverlässigere Ergebnisse.
Das gleichzeitige Entmaskieren mehrerer stark gekoppelte Tokens kann zu Fehlern bei der Generierung führen.

DAWN wählt effektiv die zuverlässigsten Entmaskierungspositionen in jeder Iteration aus, was hohe Parallelität bei gleichbleibender Textqualität ermöglicht. Experimente haben gezeigt, dass DAWN die Inferenz um das 1,80- bis 8,06-fache im Vergleich zu bestehenden Baselines beschleunigen kann, ohne die Ausgabequalität zu beeinträchtigen. Der Code für DAWN ist öffentlich verfügbar unter GitHub.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

DAWN: Abhängigkeitsbewusste schnelle Inferenz für Diffusions-LLMs

Neue Decodierungsmethode DAWN verbessert die Inferenzgeschwindigkeit für Diffusions-LLMs

Verwandte Themen:

Artikel teilen