I modelli di linguaggio di diffusione sono provabilmente campionatori paralleli ottimali

•

Autore originale:Haozhe Jiang et al.

•

31 dicembre 2025

I modelli di linguaggio di diffusione sono provabilmente campionatori paralleli ottimali

Immagine generata da Gemini AI

Ricerche recenti mettono in luce l'efficienza dei modelli di linguaggio a diffusione (DLM) nella generazione di token in parallelo, sfidando i tradizionali modelli autoregressivi. Formalizzando un modello di campionamento parallelo, lo studio dimostra che i DLM con catene di pensiero di lunghezza polinomiale possono eguagliare i passi sequenziali ottimali degli algoritmi paralleli. Tuttavia, senza modifiche ai token rivelati, i DLM possono presentare impronte intermedie significative. L'introduzione di metodi di remasking o revisione consente ai DLM di mantenere una complessità spaziale ottimale e migliora la loro espressività. Questa ricerca sottolinea il potenziale dei DLM come campionatori paralleli superiori e promuove l'integrazione di capacità di revisione.

I Modelli di Linguaggio di Diffusione Dimostrano Capacità Ottimali di Campionamento Parallelo

Ricerche recenti evidenziano il potenziale dei modelli di linguaggio di diffusione (DLM) come alternativa superiore ai modelli autoregressivi tradizionali, in particolare per quanto riguarda un'inferenza più rapida attraverso la generazione di token in parallelo. Un nuovo studio formalizza i vantaggi dei DLM, stabilendo una base rigorosa per la loro efficienza nel campionamento parallelo.

Lo studio dimostra che i DLM, quando potenziati con catene di pensiero (CoT) di lunghezza polinomiale, possono simulare efficacemente qualsiasi algoritmo di campionamento parallelo impiegando un numero ottimale di passi sequenziali. Questo indica che per qualsiasi distribuzione target generata utilizzando un numero limitato di passi sequenziali, un DLM può replicare questo processo con la stessa efficienza.

Efficienza e Limitazioni dei DLM

Nonostante i loro vantaggi, i DLM affrontano limitazioni riguardo alla modifica dei token già rivelati, il che può portare a notevoli impronte intermedie. I ricercatori hanno dimostrato che l'incorporazione del remasking—trasformare token non mascherati in maschere—e della revisione—cambiare token non mascherati in altri token non mascherati—consente ai DLM di simulare qualsiasi algoritmo di campionamento parallelo ottimizzando la complessità spaziale.

Questo introduce un significativo divario di espressività: i DLM che utilizzano la revisione o il remasking si rivelano essere decisamente più espressivi rispetto ai loro omologhi privi di queste caratteristiche. Ciò sottolinea l'importanza di abilitare la revisione all'interno dei framework DLM, migliorando le loro prestazioni e consolidando la loro posizione per un campionamento parallelo efficiente.

Argomenti correlati:

modelli di linguaggio basati su diffusioneinferenza rapidacampionamento parallelocatene di pensierorevisione

📰 Fonte originale: https://arxiv.org/abs/2512.25014v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit