Autoencoders de Representación Laminada para una Difusión Eficiente

Imagen generada por Gemini AI
Investigadores han desarrollado FlatDINO, un autoencoder variacional que comprime rejillas de parches densos de modelos como DINOv2 en una secuencia unidimensional de 32 tokens, reduciendo la dimensionalidad en un factor de 48. En el conjunto de datos ImageNet 256x256, un modelo DiT-XL que utiliza FlatDINO logra un gFID de 1.80, al tiempo que requiere 8 veces menos operaciones de punto flotante (FLOPs) por pasada, y hasta 4.5 veces menos durante el entrenamiento, lo que indica un aumento significativo en la eficiencia. Los resultados preliminares sugieren avances prometedores en los modelos de generación de imágenes.
Autoencoders de Representación Laminada para una Difusión Eficiente
Investigadores han presentado FlatDINO, un autoencoder variacional diseñado para optimizar las densas cuadrículas de parches de codificadores como DINOv2, que a menudo generan un aumento en los costos computacionales. FlatDINO comprime la representación en una secuencia unidimensional de 32 tokens continuos, logrando una reducción de 8x en la longitud de la secuencia y una compresión de 48x en la dimensionalidad total.
Cuando un modelo DiT-XL es entrenado con latentes de FlatDINO, logra una puntuación de distancia de Fréchet Inception generalizada (gFID) de 1.80 con guía sin clasificador, requiriendo 8x menos operaciones en punto flotante (FLOPs) por pasada hacia adelante y hasta 4.5x menos FLOPs por paso de entrenamiento en comparación con los métodos de difusión tradicionales que utilizan características no comprimidas de DINOv2.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.04873v1
Todos los derechos y créditos pertenecen al editor original.