Авто-регрессионные модели диффузии с маскированием

•

Оригинальный автор:Mahdi Karami et al.

•

23 января 2026 г.

Авто-регрессионные модели диффузии с маскированием

Изображение создано Gemini AI

Модель авто-регрессивного маскированного диффузионного процесса (ARMD) нацелена на устранение разрывов в производительности маскированных диффузионных моделей (MDMs) по сравнению с авто-регрессионными моделями (ARMs) путем сочетания их эффективности обучения с параллельными возможностями диффузионных моделей. ARMD использует причинную архитектуру, эквивалентную перестановкам, что обеспечивает эффективное декодирование в стиле авто-регрессии и новую стратегию параллельной генерации с шагами. Эта инновация ускоряет процесс вывода, сохраняя при этом согласованность, что приводит к достижению передовых результатов в тестах по языковому моделированию с меньшим числом этапов обучения и помогает преодолеть разрыв между параллельными и последовательными методами декодирования.

Авто-регрессионные маскированные диффузионные модели революционизируют языковое моделирование

Недавние достижения в области языкового моделирования представили авто-регрессионные маскированные диффузионные (ARMD) модели, которые повышают производительность за счет объединения авто-регрессионных моделей и архитектур на основе диффузии. Этот инновационный подход улучшает эффективность обучения и сокращает разрыв в производительности.

Ключевые инновации модели ARMD

Причинная архитектура: Вычисляет все условные вероятности во время нескольких шагов денойзинга в рамках одного параллельного прямого прохода.
Эффективная декодировка: Поддерживает декодирование в стиле авто-регрессии с прогрессивной схемой обучения перестановок, что позволяет использовать различные порядки токенов.
Параллельное генерация с шагами: Ускоряет вывод, генерируя токены по параллельным потокам, обеспечивая при этом глобальную согласованность.

Эмпирические оценки показывают, что ARMD устанавливает новый стандарт в бенчмарках языкового моделирования, превосходя устоявшиеся базовые линии диффузии при значительно меньшем количестве шагов обучения.

Улучшения производительности ARMD демонстрируют его способность преодолевать разрыв между параллельными и последовательными методами декодирования, переопределяя ожидания в обучении языковых моделей.

Связанные темы:

Авто-регрессионные моделимаскированные модели диффузииархитектурапараллельная генерацияязыковое моделирование

📰 Первоисточник: https://arxiv.org/abs/2601.16971v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit