Los Modelos de Lenguaje de Difusión son Probablemente Muestreadores Óptimos en Paralelo

•

Autor original:Haozhe Jiang et al.

•

31 de diciembre de 2025

Los Modelos de Lenguaje de Difusión son Probablemente Muestreadores Óptimos en Paralelo

Imagen generada por Gemini AI

Investigaciones recientes destacan la eficiencia de los modelos de lenguaje por difusión (DLMs) en la generación paralela de tokens, desafiando los modelos autorregresivos tradicionales. Al formalizar un modelo de muestreo paralelo, el estudio demuestra que los DLMs con cadenas de pensamiento de longitud polinómica pueden igualar los pasos secuenciales óptimos de los algoritmos paralelos. Sin embargo, sin modificaciones en los tokens revelados, los DLMs pueden presentar huellas intermedias significativas. La introducción de métodos de remascarado o revisión permite a los DLMs mantener una complejidad espacial óptima y mejora su capacidad expresiva. Esta investigación subraya el potencial de los DLMs como muestreadores paralelos superiores y aboga por la incorporación de capacidades de revisión.

Los Modelos de Lenguaje por Difusión Demuestran Capacidades Óptimas de Muestreo Paralelo

Investigaciones recientes destacan el potencial de los modelos de lenguaje por difusión (DLMs) como una alternativa superior a los modelos autorregresivos tradicionales, especialmente en la inferencia más rápida a través de la generación paralela de tokens. Un nuevo estudio formaliza las ventajas de los DLMs, estableciendo una base rigurosa para su eficiencia en el muestreo paralelo.

El estudio demuestra que los DLMs, cuando se mejoran con cadenas de pensamiento (CoT) de longitud polinómica, pueden simular efectivamente cualquier algoritmo de muestreo paralelo mientras emplean un número óptimo de pasos secuenciales. Esto indica que para cualquier distribución objetivo generada utilizando un número limitado de pasos secuenciales, un DLM puede replicar este proceso con igual eficiencia.

Eficiencia y Limitaciones de los DLMs

A pesar de sus ventajas, los DLMs enfrentan limitaciones en cuanto a la modificación de tokens previamente revelados, lo que puede resultar en huellas intermedias sustanciales. Los investigadores demostraron que la incorporación de re-mascarado—transformar tokens no enmascarados en máscaras—y revisión—cambiar tokens no enmascarados por otros tokens no enmascarados—permite a los DLMs simular cualquier algoritmo de muestreo paralelo mientras optimizan la complejidad espacial.

Esto introduce una brecha significativa en expresividad: se ha demostrado que los DLMs que utilizan revisión o re-mascarado son estrictamente más expresivos que sus contrapartes que carecen de estas características. Esto subraya la importancia de habilitar la revisión dentro de los marcos de DLM, mejorando su rendimiento y solidificando su posición para un muestreo paralelo eficiente.

Temas relacionados:

Modelos de Lenguaje de Difusiónmuestreo paralelocadena de pensamientocomplejidad espacial óptimarevisión.

📰 Fuente original: https://arxiv.org/abs/2512.25014v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit