Modelos de Difusão Mascarada Auto-Regressivos

•

Autor original:Mahdi Karami et al.

•

23 de janeiro de 2026

Modelos de Difusão Mascarada Auto-Regressivos

Imagem gerada por Gemini AI

O modelo de Difusão Mascada Auto-Regressiva (ARMD) aborda as lacunas de desempenho dos modelos de difusão mascarada (MDMs) em comparação com os modelos autoregressivos (ARMs), ao combinar a eficiência de treinamento destes últimos com as capacidades paralelas dos modelos de difusão. O ARMD utiliza uma arquitetura causal e permutacionalmente equivariante, permitindo uma decodificação eficiente em estilo autoregressivo e uma nova estratégia de geração paralela estridada. Essa inovação acelera a inferência enquanto garante a coerência, resultando em desempenhos de ponta em benchmarks de modelagem de linguagem, com um menor número de etapas de treinamento e promovendo a integração entre métodos de decodificação paralela e sequencial.

Modelos de Difusão Mascarada Auto-Regressiva Revolucionam o Modelamento de Linguagem

Avanços recentes no modelamento de linguagem introduziram modelos de Difusão Mascarada Auto-Regressiva (ARMD), aprimorando o desempenho ao combinar modelos autoregressivos e arquiteturas baseadas em difusão. Essa abordagem inovadora melhora a eficiência do treinamento e reduz a diferença de desempenho.

Principais Inovações do Modelo ARMD

Arquitetura Causal: Calcula todas as probabilidades condicionais durante múltiplos passos de desnoising em uma única passada paralela.
Decodificação Eficiente: Suporta decodificação no estilo autoregressivo com um esquema de treinamento de permutação progressiva, acomodando várias ordenações de tokens.
Geração Paralela Estridada: Acelera a inferência gerando tokens através de fluxos paralelos enquanto garante coerência global.

Avaliações empíricas indicam que o ARMD estabelece um novo padrão em benchmarks de modelamento de linguagem, superando as bases estabelecidas de difusão enquanto requer significativamente menos etapas de treinamento.

As melhorias de desempenho do ARMD demonstram sua capacidade de fechar a lacuna entre métodos de decodificação paralela e sequencial, redefinindo as expectativas no treinamento de modelos de linguagem.

Tópicos relacionados:

Modelos de Difusão MascaradaDifusão Mascarada Auto-Regressivaeficiência de treinamentogeração paraleladesempenho de ponta

📰 Fonte original: https://arxiv.org/abs/2601.16971v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit