Ламинирование представлений автоэнкодеров для эффективного диффузионного процесса

•

Оригинальный автор:Ramón Calvo-González et al.

•

4 февраля 2026 г.

Ламинирование представлений автоэнкодеров для эффективного диффузионного процесса

Изображение создано Gemini AI

Исследователи разработали FlatDINO — вариационный автоэнкодер, который сжимает плотные сетки патчей из моделей, таких как DINOv2, в одномерную последовательность из 32 токенов, что позволяет сократить размерность в 48 раз. На наборе данных ImageNet 256x256 модель DiT-XL с использованием FlatDINO достигает значения gFID 1.80, при этом требуя на 8 раз меньше операций с плавающей запятой (FLOPs) за один проход и до 4.5 раз меньше для обучения, что свидетельствует о значительных преимуществах в эффективности. Предварительные результаты показывают многообещающие достижения в области генерации изображений.

Ламинирование представлений автокодеров для эффективного диффузии

Исследователи представили FlatDINO, вариационный автокодер, предназначенный для оптимизации плотных сеток патчей от кодировщиков, таких как DINOv2, которые часто приводят к увеличению вычислительных затрат. FlatDINO сжимает представление в одномерную последовательность из 32 непрерывных токенов, достигая 8-кратного сокращения длины последовательности и 48-кратного сжатия общей размерности.

Когда модель DiT-XL обучается на латентах FlatDINO, она достигает обобщенного расстояния Фреше Инсепшн (gFID) в 1.80 с использованием управления без классификатора, что требует в 8 раз меньше операций с плавающей точкой (FLOPs) за один прямой проход и до 4.5 раз меньше FLOPs на шаге обучения по сравнению с традиционными методами диффузии, использующими несжатые функции DINOv2.

Связанные темы:

ламинирование представленийавтоэнкодерыдиффузияFlatDINOImageNet

📰 Первоисточник: https://arxiv.org/abs/2602.04873v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit