DFlash: Блочная диффузия для спекулятивного декодирования Flash

•

Оригинальный автор:Jian Chen et al.

•

5 февраля 2026 г.

DFlash: Блочная диффузия для спекулятивного декодирования Flash

Изображение создано Gemini AI

DFlash представляет новую спекулятивную декодирующую структуру, использующую легковесную блочную диффузионную модель для параллельной генерации токенов, что значительно повышает эффективность больших языковых моделей. Обеспечивая создание черновых токенов за один прямой проход и учитывая контекст целевой модели, DFlash достигает ускорения более чем в 6 раз и скорости до 2,5 раз быстрее, чем EAGLE-3, что улучшает качество вывода и использование графических процессоров.

DFlash представляет прорыв в спекулятивном декодировании для больших языковых моделей

Новая платформа DFlash обещает значительное улучшение скорости декодирования авторегрессивных больших языковых моделей (LLMs) за счет использования легкой модели блокового диффузии. Этот подход снижает время вывода и повышает эффективность использования GPU.

DFlash выделяется тем, что генерирует черновые токены за один проход вперед. Она кондиционирует черновую модель на контекстных характеристиках, полученных от целевой LLM, что позволяет эффективно создавать черновики без ущерба для качества вывода. Этот метод улучшает эффективность создания черновиков и увеличивает уровень принятия сгенерированных результатов.

Показатели производительности

Экспериментальные результаты показывают, что DFlash достигает более чем шести раз безупречного ускорения на различных моделях и задачах. Более того, она обеспечивает до 2,5 раз более высокую скорость по сравнению с EAGLE-3, текущим ведущим методом спекулятивного декодирования.

Связанные темы:

DFlashспекулятивное декодированиеблочная диффузияавтогоризонтальные языковые моделиускорение

📰 Первоисточник: https://arxiv.org/abs/2602.06036v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit