Laminierende Repräsentations-Autoencoder für effiziente Diffusion

•

Originalautor:Ramón Calvo-González et al.

•

4. Februar 2026

Laminierende Repräsentations-Autoencoder für effiziente Diffusion

Von Gemini AI generiertes Bild

Forscher haben FlatDINO entwickelt, einen variationalen Autoencoder, der dichte Patch-Gitter von Modellen wie DINOv2 in eine eindimensionale Sequenz von 32 Tokens komprimiert und dabei die Dimensionalität um das 48-fache reduziert. Auf ImageNet 256x256 erreicht ein DiT-XL, der FlatDINO nutzt, einen gFID von 1,80 und benötigt dabei 8-mal weniger FLOPs pro Vorwärtsdurchlauf sowie bis zu 4,5-mal weniger für das Training. Dies deutet auf erhebliche Effizienzgewinne hin. Erste Ergebnisse lassen auf vielversprechende Fortschritte bei Bildgenerierungsmodellen schließen.

Laminierung von Repräsentations-Autoencodern für effiziente Diffusion

Forschende haben FlatDINO vorgestellt, einen variationalen Autoencoder, der entwickelt wurde, um die dichten Patch-Gitter von Encodern wie DINOv2 zu optimieren, die oft zu erhöhten Rechenkosten führen. FlatDINO komprimiert die Repräsentation in eine eindimensionale Sequenz von 32 kontinuierlichen Tokens und erreicht eine 8-fache Reduktion der Sequenzlänge sowie eine 48-fache Kompression der gesamten Dimensionalität.

Wenn ein DiT-XL-Modell auf FlatDINO-Latents trainiert wird, erzielt es einen generalisierten Fréchet Inception Distance (gFID)-Wert von 1,80 mit classifier-free guidance, wobei es 8-mal weniger Gleitkommaoperationen (FLOPs) pro Vorwärtsdurchlauf und bis zu 4,5-mal weniger FLOPs pro Trainingsschritt im Vergleich zu traditionellen Diffusionsmethoden, die unkomprimierte DINOv2-Features verwenden, benötigt.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Laminierende Repräsentations-Autoencoder für effiziente Diffusion

Laminierung von Repräsentations-Autoencodern für effiziente Diffusion

Verwandte Themen:

Artikel teilen