Auto-Regressive Masked Diffusionsmodelle

•

Originalautor:Mahdi Karami et al.

•

23. Januar 2026

Auto-Regressive Masked Diffusionsmodelle

Von Gemini AI generiertes Bild

Das Auto-Regressive Masked Diffusion (ARMD)-Modell behebt Leistungsunterschiede zwischen Masked Diffusion Models (MDMs) und autoregressiven Modellen (ARMs), indem es deren Trainingseffizienz mit den parallelen Fähigkeiten von Diffusionsmodellen kombiniert. ARMD nutzt eine kausale, permutationsäquivariante Architektur, die eine effiziente dekodierung im autoregressiven Stil sowie eine neue gestaffelte Parallel-Generierungsstrategie ermöglicht. Diese Innovation beschleunigt die Inferenz und gewährleistet gleichzeitig Kohärenz, was zu erstklassigen Ergebnissen bei Sprachmodellierungsbenchmarks führt — und das mit weniger Trainingsschritten. So wird die Lücke zwischen parallelen und sequenziellen Dekodierungsmethoden geschlossen.

Auto-Regressive Masked Diffusion Modelle Revolutionieren die Sprachmodellierung

Neueste Fortschritte in der Sprachmodellierung haben Auto-Regressive Masked Diffusion (ARMD) Modelle hervorgebracht, die die Leistung durch die Kombination von autoregressiven Modellen und diffusionsbasierten Architekturen verbessern. Dieser innovative Ansatz erhöht die Trainingseffizienz und verringert die Leistungsdifferenz.

Wichtige Innovationen des ARMD Modells

Kausale Architektur: Berechnet alle bedingten Wahrscheinlichkeiten während mehrerer Entrauschungsschritte in einem einzigen parallelen Vorwärtsdurchlauf.
Effizientes Decoding: Unterstützt das Decoding im autoregressiven Stil mit einem progressiven Permutations-Trainingsschema, das verschiedene Token-Reihenfolgen berücksichtigt.
Gestufte parallele Generierung: Beschleunigt die Inferenz, indem Tokens über parallele Streams erzeugt werden, während die globale Kohärenz gewährleistet bleibt.

Empirische Bewertungen zeigen, dass ARMD einen neuen Standard in den Benchmarks der Sprachmodellierung setzt und etablierte Diffusions-Baselines übertrifft, während es erheblich weniger Trainingsschritte benötigt.

Die Leistungsverbesserungen von ARMD verdeutlichen seine Fähigkeit, die Lücke zwischen parallelen und sequentiellen Decoding-Methoden zu schließen und die Erwartungen an das Training von Sprachmodellen neu zu definieren.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Auto-Regressive Masked Diffusionsmodelle

Auto-Regressive Masked Diffusion Modelle Revolutionieren die Sprachmodellierung

Wichtige Innovationen des ARMD Modells

Verwandte Themen:

Artikel teilen