DFlash：闪存推测解码的区块扩散技术

•

原作者:Jian Chen et al.

•

2026年2月5日

Gemini AI生成的图像

DFlash推出了一种新颖的推测解码框架，该框架利用轻量级块扩散模型实现并行标记生成，从而提升大型语言模型的效率。通过在一次前向传递中生成草稿标记，并根据目标模型的上下文进行调整，DFlash实现了超过6倍的加速，速度比EAGLE-3快多达2.5倍，提高了推理质量和GPU利用率。

DFlash推出大型语言模型的突破性推测解码技术

一种新框架DFlash承诺通过利用轻量级块扩散模型显著提高自回归大型语言模型（LLMs）的解码速度。这种方法减少了推理延迟，并增强了GPU的利用率。

DFlash的独特之处在于它能够在单次前向传递中生成草稿标记。它根据目标LLM派生的上下文特征对草稿模型进行条件设置，从而实现高效的草拟而不牺牲输出质量。这种方法提高了草拟效率，并增加了生成输出的接受率。

实验结果显示，DFlash在各种模型和任务中实现了超过六倍的无损加速。此外，与当前领先的推测解码方法EAGLE-3相比，它提供了高达2.5倍的速度提升。