AI
AI新闻

在多样性中学习:利用表征编码器解锁标准扩散变压器

Source:arXiv
原作者:Amandeep Kumar et al.
在多样性中学习:利用表征编码器解锁标准扩散变压器

Gemini AI生成的图像

一种名为“黎曼流匹配与雅可比正则化”(RJF)的新方法,解决了扩散变换器在从表示编码器生成高保真输出时的收敛问题。通过关注流形测地线并修正曲率误差,RJF使得DiT-B架构(参数数量为1.31亿)在FID评分上达到了显著的3.37,优于以往的方法。相关代码已在提供的GitHub链接上发布。

通过黎曼流匹配解锁标准扩散变换器

一种新方法,带有雅可比正则化的黎曼流匹配(RJF),解决了标准扩散变换器中的收敛问题。该方法使扩散变换器在没有昂贵修改的情况下表现得更好。

之前的研究将收敛失败与容量瓶颈联系在一起,但本研究确定了几何干扰是主要原因。这种情况发生在标准流匹配将概率路径引导通过低密度区域,而不是沿着数据点集中所在的流形表面。

介绍黎曼流匹配

RJF 方法限制生成过程遵循流形测地线,从而减少曲率引起的误差传播。这使得具有 1.31 亿参数的 DiT-B 架构能够达到 3.37 的弗雷歇特起始距离(FID),标志着相较于之前方法的显著改进。

对生成建模的影响

RJF 的引入增强了生成输出的保真度。研究团队已在 GitHub 上公开了 RJF 的实现。

相关主题:

流形表征编码器扩散变换器几何干扰黎曼流匹配

📰 原始来源: https://arxiv.org/abs/2602.10099v1

所有权利和署名均属于原出版商。

分享此文章