在多样性中学习：利用表征编码器解锁标准扩散变压器

•

原作者:Amandeep Kumar et al.

•

2026年2月10日

Gemini AI生成的图像

一种名为“黎曼流匹配与雅可比正则化”（RJF）的新方法，解决了扩散变换器在从表示编码器生成高保真输出时的收敛问题。通过关注流形测地线并修正曲率误差，RJF使得DiT-B架构（参数数量为1.31亿）在FID评分上达到了显著的3.37，优于以往的方法。相关代码已在提供的GitHub链接上发布。

通过黎曼流匹配解锁标准扩散变换器

一种新方法，带有雅可比正则化的黎曼流匹配（RJF），解决了标准扩散变换器中的收敛问题。该方法使扩散变换器在没有昂贵修改的情况下表现得更好。

之前的研究将收敛失败与容量瓶颈联系在一起，但本研究确定了几何干扰是主要原因。这种情况发生在标准流匹配将概率路径引导通过低密度区域，而不是沿着数据点集中所在的流形表面。

RJF 方法限制生成过程遵循流形测地线，从而减少曲率引起的误差传播。这使得具有 1.31 亿参数的 DiT-B 架构能够达到 3.37 的弗雷歇特起始距离（FID），标志着相较于之前方法的显著改进。

RJF 的引入增强了生成输出的保真度。研究团队已在 GitHub 上公开了 RJF 的实现。