Modèles de diffusion masqués auto-régressifs

•

Auteur original:Mahdi Karami et al.

•

23 janvier 2026

Modèles de diffusion masqués auto-régressifs

Image générée par Gemini AI

Le modèle de diffusion masquée auto-régressive (ARMD) comble les lacunes de performance observées dans les modèles de diffusion masqués (MDM) par rapport aux modèles auto-régressifs (ARM) en alliant leur efficacité d'entraînement aux capacités parallèles des modèles de diffusion. L'ARMD utilise une architecture causale et équivariante par permutation, permettant un décodage efficace de style auto-régressif et une nouvelle stratégie de génération parallèle à pas. Cette innovation accélère l'inférence tout en garantissant la cohérence, ce qui conduit à des résultats de pointe sur les références de modélisation linguistique avec moins d'étapes d'entraînement, réduisant ainsi l'écart entre les méthodes de décodage parallèles et séquentielles.

Les modèles de diffusion masqués auto-régressifs révolutionnent la modélisation du langage

Les récents progrès dans la modélisation du langage ont introduit des modèles de diffusion masqués auto-régressifs (ARMD), améliorant les performances en combinant des modèles auto-régressifs et des architectures basées sur la diffusion. Cette approche innovante améliore l'efficacité de l'entraînement et réduit l'écart de performance.

Innovations clés du modèle ARMD

Architecture causale : Calcule toutes les probabilités conditionnelles lors de plusieurs étapes de débruitage au cours d'un unique passage parallèle vers l'avant.
Décodage efficace : Prend en charge le décodage de style auto-régressif avec un schéma d'entraînement par permutation progressive, s'adaptant à divers ordres de tokens.
Génération parallèle avec strides : Accélère l'inférence en générant des tokens à travers des flux parallèles tout en garantissant une cohérence globale.

Les évaluations empiriques indiquent que l'ARMD établit une nouvelle norme dans les benchmarks de modélisation du langage, surpassant les bases de diffusion établies tout en nécessitant significativement moins d'étapes d'entraînement.

Les améliorations de performance de l'ARMD mettent en avant sa capacité à combler le fossé entre les méthodes de décodage parallèles et séquentielles, redéfinissant les attentes en matière d'entraînement des modèles de langage.

Sujets connexes :

Modèles de diffusion masquéemodèle de Diffusion Masquée Auto-Régressivegénération parallèledécodage efficaceperformances de pointe

📰 Source originale : https://arxiv.org/abs/2601.16971v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit