Modelos de Difusión enmascarados auto-regresivos

Imagen generada por Gemini AI
El modelo de Difusión Máscara Auto-Regresiva (ARMD) aborda las brechas de rendimiento en los modelos de difusión enmascarada (MDMs) en comparación con los modelos autoregresivos (ARMs) al combinar la eficiencia en el entrenamiento de ambos tipos de modelos con las capacidades paralelas de los modelos de difusión. ARMD utiliza una arquitectura causal y equivariante por permutación, lo que permite una decodificación eficiente al estilo autoregresivo y una nueva estrategia de generación paralela estridada. Esta innovación acelera la inferencia y asegura la coherencia, logrando resultados de vanguardia en los benchmarks de modelado del lenguaje con menos pasos de entrenamiento y cerrando la brecha entre los métodos de decodificación paralela y secuencial.
Los Modelos de Difusión Enmascarada Auto-Regresiva Revolucionan el Modelado del Lenguaje
Los recientes avances en el modelado del lenguaje han introducido modelos de Difusión Enmascarada Auto-Regresiva (ARMD), mejorando el rendimiento al fusionar modelos autorregresivos y arquitecturas basadas en difusión. Este enfoque innovador mejora la eficiencia del entrenamiento y reduce la brecha de rendimiento.
Innovaciones Clave del Modelo ARMD
- Arquitectura Causal: Calcula todas las probabilidades condicionales durante múltiples pasos de eliminación de ruido dentro de una sola pasada paralela hacia adelante.
- Decodificación Eficiente: Soporta la decodificación al estilo autorregresivo con un esquema de entrenamiento de permutación progresiva, acomodando varios ordenamientos de tokens.
- Generación Paralela a Saltos: Acelera la inferencia generando tokens a través de flujos paralelos mientras asegura la coherencia global.
Las evaluaciones empíricas indican que ARMD establece un nuevo estándar en los benchmarks de modelado del lenguaje, superando las bases de difusión establecidas y requiriendo significativamente menos pasos de entrenamiento.
Las mejoras en el rendimiento de ARMD muestran su capacidad para cerrar la brecha entre los métodos de decodificación paralela y secuencial, redefiniendo las expectativas en el entrenamiento de modelos de lenguaje.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.16971v1
Todos los derechos y créditos pertenecen al editor original.