Scalabilità dei Trasformatori Diffusivi da Testo a Immagine con Autoencoder di Rappresentazione

•

Autore originale:Shengbang Tong et al.

•

22 gennaio 2026

Scalabilità dei Trasformatori Diffusivi da Testo a Immagine con Autoencoder di Rappresentazione

Immagine generata da Gemini AI

La ricerca sugli Autoencoder di Rappresentazione (RAEs) evidenzia le loro prestazioni superiori nella generazione di immagini a partire da testo (T2I) su larga scala, superando i più avanzati Autoencoder Variazionali (VAEs) in tutte le dimensioni dei modelli. I RAEs mostrano una convergenza più rapida, una qualità di generazione superiore e una maggiore stabilità durante il fine-tuning. Questi risultati suggeriscono che i RAEs potrebbero semplificare i framework T2I, migliorando i modelli multimodali che integrano la comprensione visiva e la generazione.

Progressi nella Generazione di Immagini da Testo con Autoencoder di Rappresentazione

Ricerche recenti dimostrano che gli Autoencoder di Rappresentazione (RAE) migliorano significativamente la generazione di immagini da testo (T2I) ampliando i modelli di diffusione oltre i dataset tradizionali come ImageNet. Lo studio evidenzia l'efficacia dei RAE negli spazi latenti semantici ad alta dimensione, indicando un robusto rendimento nella generazione di immagini a partire da testo libero.

Sfruttando un encoder di rappresentazione congelato, SigLIP-2, il team di ricerca ha ampliato le capacità dei decodificatori RAE incorporando dataset diversificati, tra cui dati web, sintetici e di rendering testuale. I risultati suggeriscono che, mentre l'aumento della scala del modello migliora la fedeltà, la composizione dei dati di addestramento è cruciale per ottimizzare le prestazioni in domini specifici.

Risultati Chiave dalla Scalabilità dei RAE

L'indagine ha rivelato che la scalabilità semplifica il framework. Le intuizioni chiave includono:

La programmazione del rumore dipendente dalla dimensione è fondamentale per un'efficace prestazione.
Miglioramenti architettonici, come teste di diffusione ampie, offrono vantaggi minimi a scale maggiori.

I RAE sono stati confrontati con il VAE (Variational Autoencoder) all'avanguardia FLUX su una gamma di scale di trasformatori di diffusione, da 0,5 miliardi a 9,8 miliardi di parametri. I risultati hanno costantemente mostrato che i RAE superavano i VAE nel preaddestramento su tutte le scale, riflettendo una capacità superiore nei compiti T2I.

Durante il fine-tuning su dataset di alta qualità, i modelli RAE hanno mostrato una stabilità notevole, mantenendo le prestazioni dopo 256 epoche, mentre i modelli basati su VAE tendevano a sovradattarsi dopo appena 64 epoche. Questa stabilità indica la robustezza dei RAE nella gestione di dati su larga scala.

Metriche di Prestazione Migliorate

I modelli di diffusione basati su RAE convergono più rapidamente e producono una qualità di generazione delle immagini migliore rispetto ai loro corrispettivi VAE, posizionando i RAE come una base potente per la generazione T2I su larga scala.

Argomenti correlati:

Autoencoder di Rappresentazionegenerazione testo-imaginescalabilitàmodelli di diffusioneprestazioni costantemente migliori

📰 Fonte originale: https://arxiv.org/abs/2601.16208v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit