Обучение на многообразии: Раскрытие потенциала стандартных диффузионных трансформеров с помощью кодировщиков представлений

Изображение создано Gemini AI
Новый подход, названный Riemannian Flow Matching с регуляризацией Якоби (RJF), решает проблемы сходимости в диффузионных трансформерах при генерации высококачественных выходных данных из кодировщиков представлений. Сосредоточив внимание на геодезических линиях многообразия и исправляя ошибки кривизны, RJF позволяет архитектуре DiT-B (131 млн параметров) достичь значительного значения FID — 3.37, что превосходит результаты предыдущих методов. Код доступен по предоставленной ссылке на GitHub.
Разблокировка стандартных диффузионных трансформеров с помощью Риманова сопоставления потоков
Новый подход, Риманово сопоставление потоков с регуляризацией Якоби (RJF), решает проблемы сходимости в стандартных диффузионных трансформерах. Этот метод позволяет диффузионным трансформерам работать лучше без дорогостоящих модификаций.
Предыдущие исследования связывали сбои в сходимости с узким местом в емкости, но это исследование определяет Геометрическое Взаимодействие как основную причину. Это происходит, когда стандартное сопоставление потоков направляет вероятностные пути через области с низкой плотностью, а не вдоль поверхности многообразия, где сосредоточены точки данных.
Введение в Риманово сопоставление потоков
Метод RJF ограничивает генеративный процесс следовать геодезическим многообразия, уменьшая распространение ошибок, вызванное кривизной. Это позволяет архитектуре DiT-B с 131 миллионом параметров достичь расстояния Фреше (FID) 3.37, что является значительным улучшением по сравнению с предыдущими методами.
Последствия для генеративного моделирования
Введение RJF повышает достоверность генеративных выходов. Исследовательская группа сделала реализацию RJF общедоступной на GitHub.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.10099v1
Все права и авторство принадлежат первоначальному издателю.