AI
Новости ИИ

Масштабирование за пределами языковых моделей с маскированной диффузией

Source:arXiv
Оригинальный автор:Subham Sekhar Sahoo et al.
Масштабирование за пределами языковых моделей с маскированной диффузией

Изображение создано Gemini AI

Недавние исследования показывают, что модели диффузии с маскировкой, хотя и лидируют по показателям перплексии, могут быть улучшены на 12% по эффективности FLOPs, используя целевую функцию обучения на основе кросс-энтропии. Это исследование ставит под сомнение представление о том, что перплексия является надежным показателем для сравнения различных моделей диффузии. Примечательно, что модели диффузии с равномерным состоянием превзошли как авторегрессионные, так и маскированные модели диффузии по результатам на бенчмарке GSM8K, несмотря на более низкие значения перплексии. Полные детали и ресурсы доступны на их проектной странице.

Новые инсайты ставят под сомнение доминирование языковых моделей с маскированным диффузионным подходом

Недавние исследования показывают, что маскированные диффузионные модели достигают примерно на 12% большей эффективности в операциях с плавающей точкой (FLOPs), когда обучаются с использованием цели кросс-энтропии. Это исследование является первым комплексным анализом законов масштабирования для моделей с равномерным состоянием и интерполирующих дискретных диффузионных методов.

При масштабировании до 1,7 миллиарда параметров модели с равномерным состоянием превзошли как авторегрессионные, так и маскированные диффузионные модели по результатам на тесте GSM8K, несмотря на более высокую сложность валидации. Эта находка ставит под сомнение предположение о том, что маскированная диффузия является окончательным будущим для языкового моделирования с использованием диффузии.

Исследование предполагает пересмотр метрик, используемых для оценки эффективности моделей, указывая на то, что полагаться исключительно на сложность может не полностью отразить практический потенциал модели.

Связанные темы:

маскированные диффузионные языковые моделимасштабированиеперплексиякросс-энтропияметоды дискретной диффузии

📰 Первоисточник: https://arxiv.org/abs/2602.15014v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей