利用表示自编码器扩展文本到图像扩散变换器

Gemini AI生成的图像
关于表示自编码器(RAEs)的研究表明,它们在大规模文本到图像(T2I)生成方面表现优异,超越了各个模型规模的最新变分自编码器(VAEs)。RAEs不仅收敛速度更快,生成质量更高,而且在微调过程中表现出更好的稳定性。这表明,RAEs有望简化T2I框架,提升整合视觉理解与生成的多模态模型的效果。
使用表示自编码器的文本到图像生成的进展
最近的研究表明,表示自编码器(RAEs)通过将扩散模型扩展到传统数据集(如ImageNet)之外,显著提升了文本到图像(T2I)生成的效果。研究突出了RAEs在高维语义潜在空间中的有效性,表明其在从自由格式文本生成图像方面具有强大的性能。
研究团队通过利用一个冻结的表示编码器SigLIP-2,扩展了RAE解码器的能力,整合了包括网络、合成和文本渲染数据在内的多样化数据集。研究结果表明,虽然增加模型规模可以提高保真度,但训练数据的组成对于在特定领域优化性能至关重要。
RAE扩展的关键发现
调查显示,扩展简化了框架。主要见解包括:
- 维度依赖的噪声调度对于有效性能至关重要。
- 架构增强,例如宽扩散头,在更大规模下提供的优势有限。
RAEs与最先进的FLUX变分自编码器(VAE)在一系列扩散变换器规模(从5亿到98亿参数)上进行了基准测试。结果一致表明,RAEs在所有规模的预训练中均优于VAEs,反映出在T2I任务中的卓越能力。
在高质量数据集上进行微调时,RAE模型表现出显著的稳定性,在256个周期后仍能保持性能,而基于VAE的模型在仅64个周期后就往往出现过拟合。这种稳定性表明RAE在处理大规模数据时的鲁棒性。
增强的性能指标
与VAE模型相比,基于RAE的扩散模型收敛更快,生成的图像质量更高,使RAEs成为大规模T2I生成的强大基础。
相关主题:
扩展文本到图像表示自编码器扩散建模生成质量多模态模型
📰 原始来源: https://arxiv.org/abs/2601.16208v1
所有权利和署名均属于原出版商。