高效扩散的层压表示自编码器

•

原作者:Ramón Calvo-González et al.

•

2026年2月4日

Gemini AI生成的图像

研究人员开发了FlatDINO，这是一种变分自编码器，能够将像DINOv2这样的模型生成的密集补丁网格压缩为一维的32个标记序列，维度降低了48倍。在ImageNet 256x256数据集上，使用FlatDINO的DiT-XL模型取得了1.80的生成FID（gFID），同时每次前向传播所需的FLOPs减少了8倍，训练时则减少了多达4.5倍，这表明其在效率上取得了显著提升。初步结果显示，图像生成模型在这一领域的进展非常可喜。

高效扩散的层压表示自编码器

研究人员推出了FlatDINO，这是一种变分自编码器，旨在简化来自像DINOv2这样的编码器的密集补丁网格，这往往会导致计算成本增加。FlatDINO将表示压缩为一维的32个连续标记，实现了序列长度的8倍缩减和总维度的48倍压缩。

当DiT-XL模型在FlatDINO潜变量上进行训练时，它在无分类器引导的情况下实现了1.80的广义Fréchet起始距离（gFID）得分，相较于传统使用未压缩DINOv2特征的扩散方法，每次前向传播所需的浮点运算（FLOPs）减少了8倍，每个训练步骤最多减少4.5倍的FLOPs。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

高效扩散的层压表示自编码器

高效扩散的层压表示自编码器

相关主题：

分享此文章