DAWN: Inferenza Veloce Consapevole delle Dipendenze per Modelli di Linguaggio di Diffusione

Immagine generata da Gemini AI
L'articolo presenta DAWN, un nuovo metodo per migliorare la velocità di inferenza nei modelli di linguaggio di grandi dimensioni basati su diffusione (dLLM), senza compromettere la qualità dell'output. DAWN affronta le inefficienze del decodificatore parallelo tradizionale modellando le dipendenze tra i token, consentendo così un mascheramento dei token più affidabile. I risultati sperimentali dimostrano che DAWN migliora la velocità di inferenza da 1,80 a 8,06 volte rispetto ai metodi esistenti, mantenendo al contempo la qualità della generazione. Il codice è disponibile su GitHub per l'implementazione.
Il Nuovo Metodo di Decodifica DAWN Migliora la Velocità di Inferenza per i Modelli Linguistici di Diffusione
I ricercatori hanno introdotto DAWN, una nuova tecnica di decodifica volta a ottimizzare la velocità di inferenza per i modelli linguistici di diffusione (dLLMs). Questo metodo affronta le inefficienze delle attuali strategie di decodifica parallela.
DAWN utilizza un approccio consapevole delle dipendenze e senza bisogno di addestramento, che costruisce un grafo delle dipendenze per dare priorità alle relazioni tra i token. Si concentra su due intuizioni chiave:
- Le posizioni che dipendono da determinati token non mascherati forniscono output più affidabili.
- Mascherare simultaneamente più token fortemente correlati può portare a errori nella generazione.
DAWN seleziona efficacemente le posizioni di mascheramento più affidabili ad ogni iterazione, consentendo alti livelli di parallelismo mantenendo la qualità del testo. Gli esperimenti hanno dimostrato che DAWN può accelerare l'inferenza da 1.80 a 8.06 volte rispetto ai baseline esistenti, senza compromettere la qualità dell'output. Il codice per DAWN è disponibile pubblicamente su GitHub.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.06953v1
Tutti i diritti e i crediti appartengono all'editore originale.