DFlash:闪存推测解码的区块扩散技术

Gemini AI生成的图像
DFlash推出了一种新颖的推测解码框架,该框架利用轻量级块扩散模型实现并行标记生成,从而提升大型语言模型的效率。通过在一次前向传递中生成草稿标记,并根据目标模型的上下文进行调整,DFlash实现了超过6倍的加速,速度比EAGLE-3快多达2.5倍,提高了推理质量和GPU利用率。
DFlash推出大型语言模型的突破性推测解码技术
一种新框架DFlash承诺通过利用轻量级块扩散模型显著提高自回归大型语言模型(LLMs)的解码速度。这种方法减少了推理延迟,并增强了GPU的利用率。
DFlash的独特之处在于它能够在单次前向传递中生成草稿标记。它根据目标LLM派生的上下文特征对草稿模型进行条件设置,从而实现高效的草拟而不牺牲输出质量。这种方法提高了草拟效率,并增加了生成输出的接受率。
性能指标
实验结果显示,DFlash在各种模型和任务中实现了超过六倍的无损加速。此外,与当前领先的推测解码方法EAGLE-3相比,它提供了高达2.5倍的速度提升。
相关主题:
DFlash推测解码块扩散技术自回归大型语言模型并行生成
📰 原始来源: https://arxiv.org/abs/2602.06036v1
所有权利和署名均属于原出版商。