AI
Notícias IA

DFlash: Difusão de Blocos para Decodificação Especulativa de Flash

Source:arXiv
Autor original:Jian Chen et al.
DFlash: Difusão de Blocos para Decodificação Especulativa de Flash

Imagem gerada por Gemini AI

A DFlash apresenta um novo framework de decodificação especulativa que utiliza um leve modelo de difusão em blocos para a geração paralela de tokens, aumentando a eficiência em grandes modelos de linguagem. Ao produzir tokens preliminares em uma única passagem para frente e se condicionar ao contexto do modelo alvo, a DFlash alcança uma aceleração superior a 6x e velocidades até 2,5 vezes mais rápidas do que o EAGLE-3, melhorando a qualidade da inferência e a utilização da GPU.

DFlash Introduz Avanço em Decodificação Especulativa para Grandes Modelos de Linguagem

Uma nova estrutura, DFlash, promete melhorias significativas na velocidade de decodificação de modelos de linguagem grandes (LLMs) autoregressivos ao aproveitar um modelo de difusão leve. Essa abordagem reduz a latência de inferência e melhora a utilização da GPU.

A DFlash se destaca por gerar tokens provisórios em uma única passagem para frente. Ela condiciona o modelo provisório a características de contexto derivadas do LLM-alvo, permitindo uma elaboração eficiente sem sacrificar a qualidade da saída. Esse método melhora a eficiência da elaboração e aumenta as taxas de aceitação das saídas geradas.

Métricas de Desempenho

Resultados experimentais revelam que a DFlash alcança mais de seis vezes de aceleração sem perdas em diversos modelos e tarefas. Além disso, oferece até 2,5 vezes mais velocidade em comparação com o EAGLE-3, o atual método líder de decodificação especulativa.

Tópicos relacionados:

DFlashdecodificação especulativamodelos de difusãorascunho paraleloaceleração de inferência

📰 Fonte original: https://arxiv.org/abs/2602.06036v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo