AI
Новости ИИ

Обучение на многообразии: Раскрытие потенциала стандартных диффузионных трансформеров с помощью кодировщиков представлений

Source:arXiv
Оригинальный автор:Amandeep Kumar et al.
Обучение на многообразии: Раскрытие потенциала стандартных диффузионных трансформеров с помощью кодировщиков представлений

Изображение создано Gemini AI

Новый подход, названный Riemannian Flow Matching с регуляризацией Якоби (RJF), решает проблемы сходимости в диффузионных трансформерах при генерации высококачественных выходных данных из кодировщиков представлений. Сосредоточив внимание на геодезических линиях многообразия и исправляя ошибки кривизны, RJF позволяет архитектуре DiT-B (131 млн параметров) достичь значительного значения FID — 3.37, что превосходит результаты предыдущих методов. Код доступен по предоставленной ссылке на GitHub.

Разблокировка стандартных диффузионных трансформеров с помощью Риманова сопоставления потоков

Новый подход, Риманово сопоставление потоков с регуляризацией Якоби (RJF), решает проблемы сходимости в стандартных диффузионных трансформерах. Этот метод позволяет диффузионным трансформерам работать лучше без дорогостоящих модификаций.

Предыдущие исследования связывали сбои в сходимости с узким местом в емкости, но это исследование определяет Геометрическое Взаимодействие как основную причину. Это происходит, когда стандартное сопоставление потоков направляет вероятностные пути через области с низкой плотностью, а не вдоль поверхности многообразия, где сосредоточены точки данных.

Введение в Риманово сопоставление потоков

Метод RJF ограничивает генеративный процесс следовать геодезическим многообразия, уменьшая распространение ошибок, вызванное кривизной. Это позволяет архитектуре DiT-B с 131 миллионом параметров достичь расстояния Фреше (FID) 3.37, что является значительным улучшением по сравнению с предыдущими методами.

Последствия для генеративного моделирования

Введение RJF повышает достоверность генеративных выходов. Исследовательская группа сделала реализацию RJF общедоступной на GitHub.

Связанные темы:

Обучение на многообразиидиффузионные трансформерыкодировщики представленийГеометрическое ВзаимодействиеСоответствие Потока Римановой Геометрии

📰 Первоисточник: https://arxiv.org/abs/2602.10099v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей