AI
Новости ИИ

Языковые модели диффузии являются доказательно оптимальными параллельными образцами

Source:arXiv
Оригинальный автор:Haozhe Jiang et al.
Языковые модели диффузии являются доказательно оптимальными параллельными образцами

Изображение создано Gemini AI

Недавние исследования подчеркивают эффективность диффузионных языковых моделей (DLM) в параллельной генерации токенов, ставя под сомнение традиционные авторегрессионные модели. Формализуя модель параллельного семплирования, авторы исследования доказывают, что DLM с многочленной длиной цепочки размышлений могут соответствовать оптимальным последовательным шагам параллельных алгоритмов. Однако без модификаций раскрытых токенов DLM могут иметь значительные промежуточные затраты памяти. Введение методов ремаскирования или ревизии позволяет DLM поддерживать оптимальную пространственную сложность и улучшает их выразительность. Это исследование подчеркивает потенциал DLM как превосходных параллельных семплеров и призывает к интеграции возможностей ревизии.

Модели языкового диффузии демонстрируют оптимальные возможности параллельного выборки

Недавние исследования подчеркивают потенциал моделей языкового диффузии (DLM) как превосходной альтернативы традиционным авторегрессионным моделям, особенно в более быстрой интерпретации благодаря параллельной генерации токенов. Новое исследование формализует преимущества DLM, устанавливая строгую основу для их эффективности в параллельной выборке.

В исследовании показано, что DLM, дополненные цепочкой размышлений (CoT) полиномиальной длины, могут эффективно имитировать любой алгоритм параллельной выборки, используя оптимальное количество последовательных шагов. Это указывает на то, что для любого целевого распределения, сгенерированного с использованием ограниченного числа последовательных шагов, DLM может воспроизвести этот процесс с такой же эффективностью.

Эффективность и ограничения DLM

Несмотря на свои преимущества, DLM сталкиваются с ограничениями в отношении модификации ранее раскрытых токенов, что может приводить к значительным промежуточным следам. Исследователи доказали, что внедрение ремаскирования — преобразование не замаскированных токенов в маски — и ревизии — изменение не замаскированных токенов на другие не замаскированные токены — позволяет DLM имитировать любой алгоритм параллельной выборки, оптимизируя при этом пространственную сложность.

Это создает значительный разрыв в выразительности: DLM, использующие ревизию или ремаскирование, оказываются строго более выразительными, чем их аналоги, лишенные этих функций. Это подчеркивает важность включения ревизии в структуры DLM, что улучшает их производительность и закрепляет их позиции для эффективной параллельной выборки.

Связанные темы:

Языковые модели диффузиипараллельная выборкацепочка размышленийремаскированиеревизия

📰 Первоисточник: https://arxiv.org/abs/2512.25014v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей