Escalando Transformadores de Difusión de Texto a Imagen con Autoencoders de Representación

Imagen generada por Gemini AI
La investigación sobre los Autoencoders de Representación (RAEs) indica que son especialmente efectivos en la generación de texto a imagen (T2I) a gran escala, superando a los autoencoders variacionales (VAEs) de vanguardia en diversos tamaños de modelo. Los RAEs presentan una convergencia más rápida, una calidad de generación superior y una mayor estabilidad durante el ajuste fino. Esto sugiere que los RAEs podrían optimizar los marcos de T2I, mejorando así los modelos multimodales que integran la comprensión y generación visual.
Avances en la Generación de Imágenes a partir de Texto con Autoencoders de Representación
Investigaciones recientes demuestran que los Autoencoders de Representación (RAEs) mejoran significativamente la generación de imágenes a partir de texto (T2I) al escalar modelos de difusión más allá de conjuntos de datos tradicionales como ImageNet. El estudio destaca la eficacia de los RAEs en espacios latentes semánticos de alta dimensión, indicando un rendimiento robusto en la generación de imágenes a partir de texto libre.
Al aprovechar un encoder de representación congelado, SigLIP-2, el equipo de investigación amplió las capacidades de los decodificadores RAE al incorporar conjuntos de datos diversos, incluyendo datos web, sintéticos y de renderizado de texto. Los hallazgos sugieren que, si bien aumentar la escala del modelo mejora la fidelidad, la composición de los datos de entrenamiento es crucial para optimizar el rendimiento en dominios específicos.
Hallazgos Clave del Escalado de RAE
La investigación reveló que el escalado simplifica el marco de trabajo. Los puntos clave incluyen:
- La programación de ruido dependiente de la dimensión es vital para un rendimiento efectivo.
- Las mejoras arquitectónicas, como las cabezas de difusión anchas, ofrecen ventajas mínimas a escalas más grandes.
Los RAEs fueron evaluados en comparación con el Autoencoder Variacional FLUX de última generación (VAE) a través de una variedad de escalas de transformador de difusión, desde 0.5 mil millones hasta 9.8 mil millones de parámetros. Los resultados mostraron consistentemente que los RAEs superaron a los VAEs en preentrenamiento en todas las escalas, reflejando una capacidad superior en tareas de T2I.
Durante el ajuste fino en conjuntos de datos de alta calidad, los modelos RAE exhibieron una notable estabilidad, manteniendo el rendimiento después de 256 épocas, mientras que los modelos basados en VAE tendieron a sobreajustarse después de solo 64 épocas. Esta estabilidad indica la robustez del RAE en el manejo de datos a gran escala.
Métricas de Rendimiento Mejoradas
Los modelos de difusión basados en RAE convergen más rápido y producen una mejor calidad de generación de imágenes en comparación con sus contrapartes VAE, posicionando a los RAEs como una base poderosa para la generación de T2I a gran escala.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.16208v1
Todos los derechos y créditos pertenecen al editor original.