Mise à l'échelle des transformateurs de diffusion texte-image avec des autoencodeurs de représentation

•

Auteur original:Shengbang Tong et al.

•

22 janvier 2026

Mise à l'échelle des transformateurs de diffusion texte-image avec des autoencodeurs de représentation

Image générée par Gemini AI

Des recherches sur les autoencodeurs de représentation (RAE) montrent qu'ils excellent dans la génération d'images à partir de texte à grande échelle (T2I), surpassant les autoencodeurs variationnels (VAE) de pointe à tous les niveaux de modèle. Les RAEs affichent une convergence plus rapide, une qualité de génération supérieure et une meilleure stabilité lors de l'affinage. Cela laisse penser que les RAEs pourraient simplifier les cadres T2I, améliorant ainsi les modèles multimodaux qui intègrent compréhension et génération visuelles.

Avancées dans la génération d'images à partir de texte avec des autoencodeurs de représentation

Des recherches récentes démontrent que les autoencodeurs de représentation (RAE) améliorent considérablement la génération d'images à partir de texte (T2I) en étendant les modèles de diffusion au-delà des ensembles de données traditionnels comme ImageNet. L'étude met en évidence l'efficacité des RAEs dans des espaces latents sémantiques de haute dimension, indiquant une performance robuste dans la génération d'images à partir de texte libre.

En s'appuyant sur un encodeur de représentation gelé, SigLIP-2, l'équipe de recherche a élargi les capacités des décodeurs RAE en intégrant des ensembles de données diversifiés, y compris des données web, synthétiques et de rendu de texte. Les résultats suggèrent que, bien qu'une augmentation de l'échelle du modèle améliore la fidélité, la composition des données d'entraînement est cruciale pour optimiser les performances dans des domaines spécifiques.

Principales conclusions sur l'extension des RAE

L'enquête a révélé que l'extension simplifie le cadre. Les points clés incluent :

Une planification du bruit dépendante de la dimension est vitale pour une performance efficace.
Les améliorations architecturales, telles que les têtes de diffusion larges, offrent des avantages minimes à des échelles plus grandes.

Les RAEs ont été évalués par rapport à l'autoencodeur variationnel FLUX de pointe (VAE) sur une gamme d'échelles de transformateurs de diffusion, allant de 0,5 milliard à 9,8 milliards de paramètres. Les résultats ont montré de manière cohérente que les RAEs surpassaient les VAEs en préentraînement sur toutes les échelles, reflétant une capacité supérieure dans les tâches T2I.

Lors du finetuning sur des ensembles de données de haute qualité, les modèles RAE ont montré une stabilité notable, maintenant leur performance après 256 époques, tandis que les modèles basés sur VAE avaient tendance à surajuster après seulement 64 époques. Cette stabilité indique la robustesse des RAE dans la gestion de données à grande échelle.

Métriques de performance améliorées

Les modèles de diffusion basés sur RAE convergent plus rapidement et produisent une meilleure qualité de génération d'images par rapport à leurs homologues VAE, positionnant les RAEs comme une base puissante pour la génération T2I à grande échelle.

Sujets connexes :

Autoencodeurs de Représentationgénération de texte à imagemodèles de diffusionRAEsFLUX VAE

📰 Source originale : https://arxiv.org/abs/2601.16208v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit