自回归遮蔽扩散模型

Gemini AI生成的图像
自回归掩码扩散(ARMD)模型通过将掩码扩散模型(MDMs)的训练效率与扩散模型的并行能力相结合,解决了其性能与自回归模型(ARMs)之间的差距。ARMD采用因果、置换等变架构,支持高效的自回归风格解码以及一种全新的步幅并行生成策略。这一创新显著加快了推理速度,同时确保了生成内容的一致性,从而在语言建模基准测试中实现了最先进的结果,且所需训练步骤更少,成功弥合了并行解码和序列解码方法之间的差距。
自回归掩蔽扩散模型革新语言建模
近期在语言建模领域的进展引入了自回归掩蔽扩散(ARMD)模型,通过结合自回归模型和基于扩散的架构来提升性能。这一创新方法提高了训练效率并缩小了性能差距。
ARMD模型的关键创新
- 因果架构:在单次并行前向传递中计算多个去噪步骤的所有条件概率。
- 高效解码:支持自回归风格的解码,采用渐进置换训练方案,适应各种令牌顺序。
- 跨步并行生成:通过在并行流中生成令牌来加速推理,同时确保全局一致性。
经验评估表明,ARMD在语言建模基准测试中设立了新的标准,超越了已有的扩散基线,同时所需的训练步骤显著减少。
ARMD的性能提升展示了其在并行和顺序解码方法之间架起桥梁的能力,重新定义了语言模型训练的期望。
相关主题:
自回归掩码扩散模型掩码扩散模型自回归模型并行生成能力语言建模
📰 原始来源: https://arxiv.org/abs/2601.16971v1
所有权利和署名均属于原出版商。