Modelli di Diffusione Mascherata Auto-Regressivi

•

Autore originale:Mahdi Karami et al.

•

23 gennaio 2026

Modelli di Diffusione Mascherata Auto-Regressivi

Immagine generata da Gemini AI

Il modello di Diffusione Mascherata Auto-Regressiva (ARMD) affronta le lacune prestazionali nei modelli di diffusione mascherata (MDM) rispetto ai modelli autoregressivi (ARM) combinando l'efficienza di addestramento dei primi con le capacità di elaborazione parallela dei secondi. L'ARMD utilizza un'architettura causale e permutazionamente equivoca, che consente una decodifica in stile autoregressivo altamente efficiente e una nuova strategia di generazione parallela a passi. Questa innovazione accelera l'inferenza garantendo al contempo coerenza, portando a risultati all'avanguardia nei benchmark di modellazione del linguaggio con un numero ridotto di passaggi di addestramento e colmando il divario tra i metodi di decodifica paralleli e quelli sequenziali.

I Modelli di Diffusione Mascherata Auto-Regressivi Rivoluzionano il Modelling Linguistico

I recenti progressi nel modeling linguistico hanno introdotto i modelli di Diffusione Mascherata Auto-Regressiva (ARMD), migliorando le performance attraverso la fusione di modelli autoregressivi e architetture basate sulla diffusione. Questo approccio innovativo migliora l'efficienza dell'addestramento e riduce il divario nelle performance.

Innovazioni Chiave del Modello ARMD

Architettura Causale: Calcola tutte le probabilità condizionali durante più passaggi di denoising all'interno di un'unica esecuzione parallela.
Decodifica Efficiente: Supporta una decodifica in stile autoregressivo con uno schema di addestramento a permutazione progressiva, accomodando vari ordinamenti dei token.
Generazione Parallela a Passi: Accelera l'inferenza generando token attraverso flussi paralleli mentre garantisce coerenza globale.

Le valutazioni empiriche indicano che ARMD stabilisce un nuovo standard nei benchmark di modeling linguistico, superando le basi di diffusione consolidate richiedendo significativamente meno passaggi di addestramento.

I miglioramenti delle performance di ARMD dimostrano la sua capacità di colmare il divario tra metodi di decodifica parallela e sequenziale, ridefinendo le aspettative nell'addestramento dei modelli linguistici.

Argomenti correlati:

Modelli di Diffusione MascherataModello Auto-RegressivoArchitettura CausaleGenerazione ParallelaPrestazioni all'Avanguardia

📰 Fonte originale: https://arxiv.org/abs/2601.16971v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit