DFlash : Diffusion de blocs pour le décodage spéculatif Flash

Image générée par Gemini AI
DFlash présente un nouveau cadre de décodage spéculatif utilisant un modèle de diffusion léger pour la génération parallèle de tokens, améliorant ainsi l'efficacité des grands modèles de langage. En produisant des tokens préliminaires lors d'un seul passage en avant et en se basant sur le contexte du modèle cible, DFlash atteint une accélération de plus de 6 fois et des vitesses jusqu'à 2,5 fois plus rapides que celles de l'EAGLE-3, tout en améliorant la qualité de l'inférence et l'utilisation des GPU.
DFlash Introduit une Révolution dans le Décodage Spéculatif pour les Grands Modèles de Langage
Un nouveau cadre, DFlash, promet des améliorations significatives de la vitesse de décodage des grands modèles de langage autoregressifs (LLMs) en s'appuyant sur un modèle de diffusion léger. Cette approche réduit la latence d'inférence et améliore l'utilisation du GPU.
DFlash se distingue en générant des jetons préliminaires en un seul passage avant. Il conditionne le modèle préliminaire sur des caractéristiques contextuelles dérivées du LLM cible, permettant ainsi une rédaction efficace sans compromettre la qualité de sortie. Cette méthode améliore l'efficacité de la rédaction et augmente les taux d'acceptation des sorties générées.
Métriques de Performance
Les résultats expérimentaux révèlent que DFlash atteint plus de six fois une accélération sans perte à travers divers modèles et tâches. De plus, il offre jusqu'à 2,5 fois plus de rapidité par rapport à EAGLE-3, la méthode de décodage spéculatif actuellement leader.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.06036v1
Tous les droits et crédits appartiennent à l'éditeur original.