利用表示自编码器扩展文本到图像扩散变换器

•

原作者:Shengbang Tong et al.

•

2026年1月22日

Gemini AI生成的图像

关于表示自编码器（RAEs）的研究表明，它们在大规模文本到图像（T2I）生成方面表现优异，超越了各个模型规模的最新变分自编码器（VAEs）。RAEs不仅收敛速度更快，生成质量更高，而且在微调过程中表现出更好的稳定性。这表明，RAEs有望简化T2I框架，提升整合视觉理解与生成的多模态模型的效果。

使用表示自编码器的文本到图像生成的进展

最近的研究表明，表示自编码器（RAEs）通过将扩散模型扩展到传统数据集（如ImageNet）之外，显著提升了文本到图像（T2I）生成的效果。研究突出了RAEs在高维语义潜在空间中的有效性，表明其在从自由格式文本生成图像方面具有强大的性能。

研究团队通过利用一个冻结的表示编码器SigLIP-2，扩展了RAE解码器的能力，整合了包括网络、合成和文本渲染数据在内的多样化数据集。研究结果表明，虽然增加模型规模可以提高保真度，但训练数据的组成对于在特定领域优化性能至关重要。

调查显示，扩展简化了框架。主要见解包括：

RAEs与最先进的FLUX变分自编码器（VAE）在一系列扩散变换器规模（从5亿到98亿参数）上进行了基准测试。结果一致表明，RAEs在所有规模的预训练中均优于VAEs，反映出在T2I任务中的卓越能力。

在高质量数据集上进行微调时，RAE模型表现出显著的稳定性，在256个周期后仍能保持性能，而基于VAE的模型在仅64个周期后就往往出现过拟合。这种稳定性表明RAE在处理大规模数据时的鲁棒性。

与VAE模型相比，基于RAE的扩散模型收敛更快，生成的图像质量更高，使RAEs成为大规模T2I生成的强大基础。