高效扩散的层压表示自编码器

Gemini AI生成的图像
研究人员开发了FlatDINO,这是一种变分自编码器,能够将像DINOv2这样的模型生成的密集补丁网格压缩为一维的32个标记序列,维度降低了48倍。在ImageNet 256x256数据集上,使用FlatDINO的DiT-XL模型取得了1.80的生成FID(gFID),同时每次前向传播所需的FLOPs减少了8倍,训练时则减少了多达4.5倍,这表明其在效率上取得了显著提升。初步结果显示,图像生成模型在这一领域的进展非常可喜。
高效扩散的层压表示自编码器
研究人员推出了FlatDINO,这是一种变分自编码器,旨在简化来自像DINOv2这样的编码器的密集补丁网格,这往往会导致计算成本增加。FlatDINO将表示压缩为一维的32个连续标记,实现了序列长度的8倍缩减和总维度的48倍压缩。
当DiT-XL模型在FlatDINO潜变量上进行训练时,它在无分类器引导的情况下实现了1.80的广义Fréchet起始距离(gFID)得分,相较于传统使用未压缩DINOv2特征的扩散方法,每次前向传播所需的浮点运算(FLOPs)减少了8倍,每个训练步骤最多减少4.5倍的FLOPs。
相关主题:
高效扩散层叠表示自编码器FlatDINO训练步骤图像生成
📰 原始来源: https://arxiv.org/abs/2602.04873v1
所有权利和署名均属于原出版商。