
DAWN: Inferência Rápida Consciente de Dependências para LLMs de Difusão
O artigo apresenta o DAWN, um novo método para melhorar a velocidade de inferência em modelos de linguagem de difusão de grande porte (dLLMs) sem comprometer a qualidade da saída. O DAWN aborda as ineficiências da decodificação paralela tradicional ao modelar as dependências entre os tokens, permitindo um desmascaramento de tokens mais confiável. Resultados experimentais mostram que o DAWN aumenta a velocidade de inferência em até 1,80 a 8,06 vezes em comparação com métodos existentes, enquanto mantém a qualidade da geração. O código está disponível no GitHub para implementação.










