Escalonando Transformadores de Difusão Texto-Imagem com Autoencoders de Representação

•

Autor original:Shengbang Tong et al.

•

22 de janeiro de 2026

Escalonando Transformadores de Difusão Texto-Imagem com Autoencoders de Representação

Imagem gerada por Gemini AI

Pesquisas sobre Autoencoders de Representação (RAEs) indicam que eles se destacam na geração de texto para imagem (T2I) em larga escala, superando os Autoencoders Variacionais (VAEs) de última geração em diferentes escalas de modelo. Os RAEs demonstram uma convergência mais rápida, qualidade de geração superior e estabilidade durante o ajuste fino. Isso sugere que os RAEs poderiam otimizar estruturas de T2I, melhorando modelos multimodais que integram compreensão e geração visual.

Avanços na Geração de Imagens a Partir de Texto com Autoencoders de Representação

Pesquisas recentes demonstram que os Autoencoders de Representação (RAEs) melhoram significativamente a geração de imagens a partir de texto (T2I) ao escalar modelos de difusão além de conjuntos de dados tradicionais como o ImageNet. O estudo destaca a eficácia dos RAEs em espaços latentes semânticos de alta dimensão, indicando um desempenho robusto na geração de imagens a partir de texto livre.

Aproveitando um codificador de representação congelado, o SigLIP-2, a equipe de pesquisa expandiu as capacidades dos decodificadores RAE ao incorporar conjuntos de dados diversos, incluindo dados da web, sintéticos e de renderização de texto. Os resultados sugerem que, embora aumentar a escala do modelo melhore a fidelidade, a composição dos dados de treinamento é crucial para otimizar o desempenho em domínios específicos.

Principais Descobertas da Escala RAE

A investigação revelou que a escalabilidade simplifica a estrutura. Os principais insights incluem:

A programação de ruído dependente da dimensão é vital para um desempenho eficaz.
Aprimoramentos arquitetônicos, como cabeçotes de difusão largos, oferecem vantagens mínimas em escalas maiores.

Os RAEs foram avaliados em comparação ao Autoencoder Variacional (VAE) FLUX de última geração em uma variedade de escalas de transformadores de difusão, variando de 0,5 bilhão a 9,8 bilhões de parâmetros. Os resultados mostraram consistentemente que os RAEs superaram os VAEs no pré-treinamento em todas as escalas, refletindo uma capacidade superior em tarefas de T2I.

Durante o ajuste fino em conjuntos de dados de alta qualidade, os modelos RAE exibiram notável estabilidade, mantendo o desempenho após 256 épocas, enquanto os modelos baseados em VAE tendiam a se ajustar demais após apenas 64 épocas. Essa estabilidade indica a robustez do RAE em lidar com dados em larga escala.

Métricas de Desempenho Aprimoradas

Modelos de difusão baseados em RAE convergem mais rapidamente e oferecem melhor qualidade de geração de imagens em comparação com seus equivalentes VAE, posicionando os RAEs como uma base poderosa para a geração de T2I em larga escala.

Tópicos relacionados:

Autoencoders de Representaçãodifusão de texto para imagemescalabilidademodelos RAEqualidade de geração

📰 Fonte original: https://arxiv.org/abs/2601.16208v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit