自回归遮蔽扩散模型

•

原作者:Mahdi Karami et al.

•

2026年1月23日

Gemini AI生成的图像

自回归掩码扩散（ARMD）模型通过将掩码扩散模型（MDMs）的训练效率与扩散模型的并行能力相结合，解决了其性能与自回归模型（ARMs）之间的差距。ARMD采用因果、置换等变架构，支持高效的自回归风格解码以及一种全新的步幅并行生成策略。这一创新显著加快了推理速度，同时确保了生成内容的一致性，从而在语言建模基准测试中实现了最先进的结果，且所需训练步骤更少，成功弥合了并行解码和序列解码方法之间的差距。

自回归掩蔽扩散模型革新语言建模

近期在语言建模领域的进展引入了自回归掩蔽扩散（ARMD）模型，通过结合自回归模型和基于扩散的架构来提升性能。这一创新方法提高了训练效率并缩小了性能差距。

ARMD模型的关键创新

因果架构：在单次并行前向传递中计算多个去噪步骤的所有条件概率。
高效解码：支持自回归风格的解码，采用渐进置换训练方案，适应各种令牌顺序。
跨步并行生成：通过在并行流中生成令牌来加速推理，同时确保全局一致性。

经验评估表明，ARMD在语言建模基准测试中设立了新的标准，超越了已有的扩散基线，同时所需的训练步骤显著减少。

ARMD的性能提升展示了其在并行和顺序解码方法之间架起桥梁的能力，重新定义了语言模型训练的期望。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

自回归遮蔽扩散模型

自回归掩蔽扩散模型革新语言建模

ARMD模型的关键创新

相关主题：

分享此文章