Modelos de Difusión enmascarados auto-regresivos

•

Autor original:Mahdi Karami et al.

•

23 de enero de 2026

Modelos de Difusión enmascarados auto-regresivos

Imagen generada por Gemini AI

El modelo de Difusión Máscara Auto-Regresiva (ARMD) aborda las brechas de rendimiento en los modelos de difusión enmascarada (MDMs) en comparación con los modelos autoregresivos (ARMs) al combinar la eficiencia en el entrenamiento de ambos tipos de modelos con las capacidades paralelas de los modelos de difusión. ARMD utiliza una arquitectura causal y equivariante por permutación, lo que permite una decodificación eficiente al estilo autoregresivo y una nueva estrategia de generación paralela estridada. Esta innovación acelera la inferencia y asegura la coherencia, logrando resultados de vanguardia en los benchmarks de modelado del lenguaje con menos pasos de entrenamiento y cerrando la brecha entre los métodos de decodificación paralela y secuencial.

Los Modelos de Difusión Enmascarada Auto-Regresiva Revolucionan el Modelado del Lenguaje

Los recientes avances en el modelado del lenguaje han introducido modelos de Difusión Enmascarada Auto-Regresiva (ARMD), mejorando el rendimiento al fusionar modelos autorregresivos y arquitecturas basadas en difusión. Este enfoque innovador mejora la eficiencia del entrenamiento y reduce la brecha de rendimiento.

Innovaciones Clave del Modelo ARMD

Arquitectura Causal: Calcula todas las probabilidades condicionales durante múltiples pasos de eliminación de ruido dentro de una sola pasada paralela hacia adelante.
Decodificación Eficiente: Soporta la decodificación al estilo autorregresivo con un esquema de entrenamiento de permutación progresiva, acomodando varios ordenamientos de tokens.
Generación Paralela a Saltos: Acelera la inferencia generando tokens a través de flujos paralelos mientras asegura la coherencia global.

Las evaluaciones empíricas indican que ARMD establece un nuevo estándar en los benchmarks de modelado del lenguaje, superando las bases de difusión establecidas y requiriendo significativamente menos pasos de entrenamiento.

Las mejoras en el rendimiento de ARMD muestran su capacidad para cerrar la brecha entre los métodos de decodificación paralela y secuencial, redefiniendo las expectativas en el entrenamiento de modelos de lenguaje.

Temas relacionados:

modelos de difusión enmascaradamodelos auto-regresivosDifusión Mascarada Auto-Regresivageneración paralelarendimiento de vanguardia

📰 Fuente original: https://arxiv.org/abs/2601.16971v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit