AI
Actualités IA

DAWN : Inférence rapide consciente des dépendances pour les LLMs de diffusion

Source:arXiv
Auteur original:Lizhuo Luo et al.
DAWN : Inférence rapide consciente des dépendances pour les LLMs de diffusion

Image générée par Gemini AI

L'article présente DAWN, une nouvelle méthode visant à améliorer la vitesse d'inférence des modèles de langage à diffusion (dLLMs) sans compromettre la qualité des résultats. DAWN s'attaque aux inefficacités du décodage parallèle traditionnel en modélisant les dépendances entre les tokens, permettant ainsi un démasquage des tokens plus fiable. Les résultats expérimentaux montrent que DAWN augmente la vitesse d'inférence de 1,80 à 8,06 fois par rapport aux méthodes existantes, tout en maintenant la qualité de la génération. Le code est disponible sur GitHub pour une mise en œuvre facile.

La Nouvelle Méthode de Décodage DAWN Améliore la Vitesse d'Inférence pour les LLMs de Diffusion

Des chercheurs ont introduit DAWN, une nouvelle technique de décodage visant à optimiser la vitesse d'inférence pour les modèles de langage de diffusion (dLLMs). Cette méthode s'attaque aux inefficacités des stratégies de décodage parallèle existantes.

DAWN utilise une approche sans entraînement, consciente des dépendances, qui construit un graphe de dépendance pour prioriser les relations entre les tokens. Elle se concentre sur deux idées clés :

  • Les positions qui dépendent de certains tokens non masqués produisent des sorties plus fiables.
  • Le démasquage simultané de plusieurs tokens fortement couplés peut entraîner des erreurs dans la génération.

DAWN sélectionne efficacement les positions de démasquage les plus fiables à chaque itération, permettant ainsi des niveaux élevés de parallélisme tout en maintenant la qualité du texte. Des expériences ont montré que DAWN peut accélérer l'inférence d'un facteur de 1,80 à 8,06 fois par rapport aux références existantes, sans compromettre la qualité de sortie. Le code de DAWN est disponible publiquement sur GitHub.

Sujets connexes :

DAWNinférence rapidedépendances inter-tokendLLMsdécodage parallèle

📰 Source originale : https://arxiv.org/abs/2602.06953v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article