AI
Noticias IA

DFlash: Difusión de Bloques para la Decodificación Especulativa de Flash

Source:arXiv
Autor original:Jian Chen et al.
DFlash: Difusión de Bloques para la Decodificación Especulativa de Flash

Imagen generada por Gemini AI

DFlash presenta un novedoso marco de decodificación especulativa que utiliza un modelo de difusión en bloque ligero para la generación paralela de tokens, lo que optimiza la eficiencia en los modelos de lenguaje de gran tamaño. Al generar tokens preliminares en una única pasada hacia adelante y condicionar sobre el contexto del modelo objetivo, DFlash logra una aceleración de más de 6 veces y velocidades hasta 2.5 veces más rápidas que EAGLE-3, mejorando así la calidad de la inferencia y la utilización de la GPU.

DFlash Introduce un Avance en Decodificación Especulativa para Modelos de Lenguaje de Gran Tamaño

Un nuevo marco, DFlash, promete mejoras significativas en la velocidad de decodificación de los modelos de lenguaje de gran tamaño (LLMs) autoregresivos al aprovechar un modelo de difusión de bloques ligero. Este enfoque reduce la latencia de inferencia y mejora la utilización de GPU.

DFlash se distingue por generar tokens preliminares en un único paso hacia adelante. Condiciona el modelo preliminar en características de contexto derivadas del LLM objetivo, lo que permite un borrador eficiente sin sacrificar la calidad de salida. Este método mejora la eficiencia del borrador y aumenta las tasas de aceptación de las salidas generadas.

Métricas de Rendimiento

Los resultados experimentales revelan que DFlash logra más de seis veces de aceleración sin pérdidas en varios modelos y tareas. Además, ofrece hasta 2.5 veces más velocidad en comparación con EAGLE-3, el método de decodificación especulativa líder actual.

Temas relacionados:

DFlashdecodificación especulativamodelos de lenguaje grandeborrado paraleloaceleración.

📰 Fuente original: https://arxiv.org/abs/2602.06036v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo