DAWN: Inferência Rápida Consciente de Dependências para LLMs de Difusão

Imagem gerada por Gemini AI
O artigo apresenta o DAWN, um novo método para melhorar a velocidade de inferência em modelos de linguagem de difusão de grande porte (dLLMs) sem comprometer a qualidade da saída. O DAWN aborda as ineficiências da decodificação paralela tradicional ao modelar as dependências entre os tokens, permitindo um desmascaramento de tokens mais confiável. Resultados experimentais mostram que o DAWN aumenta a velocidade de inferência em até 1,80 a 8,06 vezes em comparação com métodos existentes, enquanto mantém a qualidade da geração. O código está disponível no GitHub para implementação.
O Novo Método de Decodificação DAWN Aumenta a Velocidade de Inferência para LLMs de Difusão
Pesquisadores introduziram o DAWN, uma nova técnica de decodificação destinada a otimizar a velocidade de inferência para modelos de linguagem de difusão grandes (dLLMs). Este método aborda as ineficiências das estratégias de decodificação paralela existentes.
O DAWN utiliza uma abordagem sem treinamento e ciente de dependências que constrói um gráfico de dependência para priorizar os relacionamentos entre tokens. Ele se concentra em duas percepções chave:
- Posições que dependem de certos tokens não mascarados geram saídas mais confiáveis.
- Desmascarar múltiplos tokens fortemente acoplados simultaneamente pode levar a erros na geração.
O DAWN seleciona efetivamente as posições de desmascaramento mais confiáveis a cada iteração, permitindo altos níveis de paralelismo enquanto mantém a qualidade do texto. Experimentos mostraram que o DAWN pode acelerar a inferência em um fator de 1,80 a 8,06 vezes em comparação com as bases existentes, sem comprometer a qualidade da saída. O código do DAWN está disponível publicamente em GitHub.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.06953v1
Todos os direitos e créditos pertencem ao editor original.