Авто-регрессионные модели диффузии с маскированием

Изображение создано Gemini AI
Модель авто-регрессивного маскированного диффузионного процесса (ARMD) нацелена на устранение разрывов в производительности маскированных диффузионных моделей (MDMs) по сравнению с авто-регрессионными моделями (ARMs) путем сочетания их эффективности обучения с параллельными возможностями диффузионных моделей. ARMD использует причинную архитектуру, эквивалентную перестановкам, что обеспечивает эффективное декодирование в стиле авто-регрессии и новую стратегию параллельной генерации с шагами. Эта инновация ускоряет процесс вывода, сохраняя при этом согласованность, что приводит к достижению передовых результатов в тестах по языковому моделированию с меньшим числом этапов обучения и помогает преодолеть разрыв между параллельными и последовательными методами декодирования.
Авто-регрессионные маскированные диффузионные модели революционизируют языковое моделирование
Недавние достижения в области языкового моделирования представили авто-регрессионные маскированные диффузионные (ARMD) модели, которые повышают производительность за счет объединения авто-регрессионных моделей и архитектур на основе диффузии. Этот инновационный подход улучшает эффективность обучения и сокращает разрыв в производительности.
Ключевые инновации модели ARMD
- Причинная архитектура: Вычисляет все условные вероятности во время нескольких шагов денойзинга в рамках одного параллельного прямого прохода.
- Эффективная декодировка: Поддерживает декодирование в стиле авто-регрессии с прогрессивной схемой обучения перестановок, что позволяет использовать различные порядки токенов.
- Параллельное генерация с шагами: Ускоряет вывод, генерируя токены по параллельным потокам, обеспечивая при этом глобальную согласованность.
Эмпирические оценки показывают, что ARMD устанавливает новый стандарт в бенчмарках языкового моделирования, превосходя устоявшиеся базовые линии диффузии при значительно меньшем количестве шагов обучения.
Улучшения производительности ARMD демонстрируют его способность преодолевать разрыв между параллельными и последовательными методами декодирования, переопределяя ожидания в обучении языковых моделей.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.16971v1
Все права и авторство принадлежат первоначальному издателю.