AI
Notícias IA

Modelos de Linguagem de Difusão são Provavelmente Amostras Paralelas Ótimas

Source:arXiv
Autor original:Haozhe Jiang et al.
Modelos de Linguagem de Difusão são Provavelmente Amostras Paralelas Ótimas

Imagem gerada por Gemini AI

Pesquisas recentes destacam a eficiência dos modelos de linguagem de difusão (DLMs) na geração de tokens em paralelo, desafiando os modelos autoregressivos tradicionais. Ao formalizar um modelo de amostragem paralela, o estudo comprova que os DLMs com cadeias de raciocínio de comprimento polinomial podem igualar os passos sequenciais ótimos dos algoritmos paralelos. No entanto, sem modificações nos tokens revelados, os DLMs podem apresentar pegadas intermediárias significativas. A introdução de métodos de remapeamento ou revisão permite que os DLMs mantenham uma complexidade espacial ideal e amplie sua expressividade. Essa pesquisa ressalta o potencial dos DLMs como amostradores paralelos superiores e defende a incorporação de capacidades de revisão.

Modelos de Linguagem por Difusão Demonstram Capacidades Opcionais de Amostragem Paralela

Pesquisas recentes destacam o potencial dos modelos de linguagem por difusão (DLMs) como uma alternativa superior aos modelos autorregressivos tradicionais, especialmente na inferência mais rápida através da geração paralela de tokens. Um novo estudo formaliza as vantagens dos DLMs, estabelecendo uma base rigorosa para sua eficiência na amostragem paralela.

O estudo demonstra que os DLMs, quando aprimorados com cadeias de pensamento (CoT) de comprimento polinomial, podem simular efetivamente qualquer algoritmo de amostragem paralela enquanto empregam um número ótimo de etapas sequenciais. Isso indica que, para qualquer distribuição alvo gerada usando um número limitado de etapas sequenciais, um DLM pode replicar esse processo com igual eficiência.

Eficiência e Limitações dos DLMs

Apesar de suas vantagens, os DLMs enfrentam limitações em relação à modificação de tokens previamente revelados, o que pode resultar em impressões intermediárias substanciais. Os pesquisadores provaram que a incorporação de remascar—transformar tokens não mascarados em máscaras—e revisão—trocar tokens não mascarados por outros tokens não mascarados—permite que os DLMs simulem qualquer algoritmo de amostragem paralela enquanto otimizam a complexidade espacial.

Isso introduz uma lacuna significativa de expressividade: os DLMs que utilizam revisão ou remascar demonstram ser estritamente mais expressivos do que seus equivalentes que carecem dessas características. Isso ressalta a importância de habilitar a revisão dentro das estruturas de DLM, aprimorando seu desempenho e solidificando sua posição para uma amostragem paralela eficiente.

Tópicos relacionados:

Modelos de Linguagem por Difusãoamostragem paralelacadeias de raciocíniocomplexidade espacial ótimahabilitação da revisão

📰 Fonte original: https://arxiv.org/abs/2512.25014v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo