AI
Actualités IA

Élargir les capacités au-delà des modèles de langage par diffusion masquée

Source:arXiv
Auteur original:Subham Sekhar Sahoo et al.
Élargir les capacités au-delà des modèles de langage par diffusion masquée

Image générée par Gemini AI

Des recherches récentes montrent que les modèles de diffusion masqués, bien qu'actuellement en tête des scores de perplexité, peuvent améliorer leur efficacité en FLOPs de 12 % grâce à un objectif d'entraînement basé sur l'entropie croisée. Cette étude remet en question l'idée selon laquelle la perplexité est un indicateur fiable pour comparer différents modèles de diffusion. Il est à noter que le modèle de diffusion à état uniforme a surpassé tant les modèles de diffusion autoregressifs que masqués sur le benchmark GSM8K, et ce, malgré une perplexité inférieure. Pour plus de détails et de ressources, rendez-vous sur leur page projet.

De nouvelles perspectives remettent en question la domination des modèles de langage par diffusion masquée

Des recherches récentes révèlent que les modèles de diffusion masquée atteignent une efficacité d'environ 12 % supérieure en opérations à virgule flottante (FLOPs) lorsqu'ils sont entraînés avec un objectif d'entropie croisée. Cette étude constitue la première analyse complète des lois d'échelle pour les méthodes de diffusion à état uniforme et à interpolation discrète.

Lorsqu'ils sont étendus à 1,7 milliard de paramètres, les modèles de diffusion à état uniforme ont surpassé à la fois les modèles autoregressifs et les modèles de diffusion masquée sur le benchmark GSM8K, malgré une perplexité de validation plus élevée. Cette découverte remet en question l'hypothèse selon laquelle la diffusion masquée serait l'avenir définitif de la modélisation du langage par diffusion.

La recherche suggère une réévaluation des métriques utilisées pour évaluer l'efficacité des modèles, indiquant que se fier uniquement à la perplexité peut ne pas capturer pleinement le potentiel pratique d'un modèle.

Sujets connexes :

modèles de diffusionperplexitéentropie croiséediffusion à état uniformeéchantillonnage rapide

📰 Source originale : https://arxiv.org/abs/2602.15014v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article