AI
Notícias IA

DAWN: Inferência Rápida Consciente de Dependências para LLMs de Difusão

Source:arXiv
Autor original:Lizhuo Luo et al.
DAWN: Inferência Rápida Consciente de Dependências para LLMs de Difusão

Imagem gerada por Gemini AI

O artigo apresenta o DAWN, um novo método para melhorar a velocidade de inferência em modelos de linguagem de difusão de grande porte (dLLMs) sem comprometer a qualidade da saída. O DAWN aborda as ineficiências da decodificação paralela tradicional ao modelar as dependências entre os tokens, permitindo um desmascaramento de tokens mais confiável. Resultados experimentais mostram que o DAWN aumenta a velocidade de inferência em até 1,80 a 8,06 vezes em comparação com métodos existentes, enquanto mantém a qualidade da geração. O código está disponível no GitHub para implementação.

O Novo Método de Decodificação DAWN Aumenta a Velocidade de Inferência para LLMs de Difusão

Pesquisadores introduziram o DAWN, uma nova técnica de decodificação destinada a otimizar a velocidade de inferência para modelos de linguagem de difusão grandes (dLLMs). Este método aborda as ineficiências das estratégias de decodificação paralela existentes.

O DAWN utiliza uma abordagem sem treinamento e ciente de dependências que constrói um gráfico de dependência para priorizar os relacionamentos entre tokens. Ele se concentra em duas percepções chave:

  • Posições que dependem de certos tokens não mascarados geram saídas mais confiáveis.
  • Desmascarar múltiplos tokens fortemente acoplados simultaneamente pode levar a erros na geração.

O DAWN seleciona efetivamente as posições de desmascaramento mais confiáveis a cada iteração, permitindo altos níveis de paralelismo enquanto mantém a qualidade do texto. Experimentos mostraram que o DAWN pode acelerar a inferência em um fator de 1,80 a 8,06 vezes em comparação com as bases existentes, sem comprometer a qualidade da saída. O código do DAWN está disponível publicamente em GitHub.

Tópicos relacionados:

DAWNmodelos de linguagem de difusãodecodificação paraleladependências entre tokensinferência rápida

📰 Fonte original: https://arxiv.org/abs/2602.06953v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo