Ламинирование представлений автоэнкодеров для эффективного диффузионного процесса

Изображение создано Gemini AI
Исследователи разработали FlatDINO — вариационный автоэнкодер, который сжимает плотные сетки патчей из моделей, таких как DINOv2, в одномерную последовательность из 32 токенов, что позволяет сократить размерность в 48 раз. На наборе данных ImageNet 256x256 модель DiT-XL с использованием FlatDINO достигает значения gFID 1.80, при этом требуя на 8 раз меньше операций с плавающей запятой (FLOPs) за один проход и до 4.5 раз меньше для обучения, что свидетельствует о значительных преимуществах в эффективности. Предварительные результаты показывают многообещающие достижения в области генерации изображений.
Ламинирование представлений автокодеров для эффективного диффузии
Исследователи представили FlatDINO, вариационный автокодер, предназначенный для оптимизации плотных сеток патчей от кодировщиков, таких как DINOv2, которые часто приводят к увеличению вычислительных затрат. FlatDINO сжимает представление в одномерную последовательность из 32 непрерывных токенов, достигая 8-кратного сокращения длины последовательности и 48-кратного сжатия общей размерности.
Когда модель DiT-XL обучается на латентах FlatDINO, она достигает обобщенного расстояния Фреше Инсепшн (gFID) в 1.80 с использованием управления без классификатора, что требует в 8 раз меньше операций с плавающей точкой (FLOPs) за один прямой проход и до 4.5 раз меньше FLOPs на шаге обучения по сравнению с традиционными методами диффузии, использующими несжатые функции DINOv2.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.04873v1
Все права и авторство принадлежат первоначальному издателю.