AI
Noticias IA

Escalando Más Allá de los Modelos de Lenguaje de Difusión Enmascarada

Source:arXiv
Autor original:Subham Sekhar Sahoo et al.
Escalando Más Allá de los Modelos de Lenguaje de Difusión Enmascarada

Imagen generada por Gemini AI

Investigaciones recientes han revelado que los modelos de difusión enmascarados, aunque actualmente lideran en puntuaciones de perplejidad, pueden mejorar su eficiencia en FLOPs en un 12% utilizando un objetivo de entrenamiento de entropía cruzada. El estudio desafía la idea de que la perplejidad es una métrica confiable para comparar diferentes modelos de difusión. Notablemente, el modelo de difusión de estado uniforme superó tanto a los modelos autoregresivos como a los enmascarados en el benchmark GSM8K, a pesar de tener una perplejidad inferior. Todos los detalles y recursos están disponibles en su página del proyecto.

Nuevas Perspectivas Desafían la Dominancia de los Modelos de Lenguaje de Difusión Enmascarada

Investigaciones recientes revelan que los modelos de difusión enmascarada logran aproximadamente un 12% más de eficiencia en operaciones de punto flotante (FLOPs) cuando se entrenan con un objetivo de entropía cruzada. Este estudio sirve como el primer análisis integral de las leyes de escalado para métodos de difusión de estado uniforme e interpolación discreta.

Cuando se escalan a 1.7 mil millones de parámetros, los modelos de difusión de estado uniforme superaron tanto a los modelos de difusión enmascarada como a los autoregresivos en el benchmark GSM8K, a pesar de una mayor perplejidad de validación. Este hallazgo cuestiona la suposición de que la difusión enmascarada es el futuro definitivo para el modelado de lenguaje de difusión.

La investigación sugiere una reevaluación de las métricas utilizadas para evaluar la eficacia de los modelos, indicando que basarse únicamente en la perplejidad puede no capturar completamente el potencial práctico de un modelo.

Temas relacionados:

modelos de lenguaje por difusióndifusión enmascaradaperplejidadescalado de métodos de difusióneficiencia en FLOPs

📰 Fuente original: https://arxiv.org/abs/2602.15014v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo