Масштабирование диффузионных трансформеров текст-в-изображение с использованием авто编码еров представления

Изображение создано Gemini AI
Исследования по автоэнкодерам представления (RAE) показывают, что они превосходят современные вариационные автоэнкодеры (VAE) в генерации изображений на основе текста (T2I) на больших масштабах. RAEs демонстрируют более быструю сходимость, высшее качество генерации и стабильность во время тонкой настройки. Это указывает на то, что RAEs могут упростить T2I-фреймворки, улучшая мультимодальные модели, которые объединяют визуальное понимание и генерацию.
Достижения в генерации изображений из текста с помощью автоэнкодеров представления
Недавние исследования показывают, что автоэнкодеры представления (RAE) значительно улучшают генерацию изображений из текста (T2I), масштабируя модели диффузии за пределы традиционных наборов данных, таких как ImageNet. Исследование подчеркивает эффективность RAE в высокоразмерных семантических латентных пространствах, указывая на надежную производительность в генерации изображений из произвольного текста.
Используя замороженный кодировщик представления, SigLIP-2, исследовательская группа расширила возможности декодеров RAE, включив разнообразные наборы данных, включая веб, синтетические и данные рендеринга текста. Результаты показывают, что хотя увеличение масштаба модели улучшает точность, состав обучающих данных имеет решающее значение для оптимизации производительности в определенных областях.
Ключевые выводы из масштабирования RAE
Исследование показало, что масштабирование упрощает структуру. Ключевые выводы включают:
- Планирование шума, зависящее от размерности, имеет решающее значение для эффективной работы.
- Архитектурные улучшения, такие как широкие диффузионные головы, дают минимальные преимущества при больших масштабах.
RAE были протестированы по сравнению с современным вариационным автоэнкодером FLUX (VAE) на различных масштабах диффузионного трансформера, от 0,5 миллиарда до 9,8 миллиарда параметров. Результаты последовательно показывали, что RAE превосходили VAE в предварительном обучении на всех масштабах, отражая превосходные возможности в задачах T2I.
В ходе дообучения на высококачественных наборах данных модели RAE продемонстрировали заметную стабильность, сохраняя производительность после 256 эпох, в то время как модели на основе VAE, как правило, переобучались уже после 64 эпох. Эта стабильность указывает на надежность RAE в обработке данных большого объема.
Улучшенные метрики производительности
Модели диффузии на основе RAE сходятся быстрее и обеспечивают лучшее качество генерации изображений по сравнению с аналогами VAE, что позиционирует RAE как мощную основу для генерации изображений из текста в больших масштабах.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.16208v1
Все права и авторство принадлежат первоначальному издателю.