Autoencoders de Representación Laminada para una Difusión Eficiente

•

Autor original:Ramón Calvo-González et al.

•

4 de febrero de 2026

Autoencoders de Representación Laminada para una Difusión Eficiente

Imagen generada por Gemini AI

Investigadores han desarrollado FlatDINO, un autoencoder variacional que comprime rejillas de parches densos de modelos como DINOv2 en una secuencia unidimensional de 32 tokens, reduciendo la dimensionalidad en un factor de 48. En el conjunto de datos ImageNet 256x256, un modelo DiT-XL que utiliza FlatDINO logra un gFID de 1.80, al tiempo que requiere 8 veces menos operaciones de punto flotante (FLOPs) por pasada, y hasta 4.5 veces menos durante el entrenamiento, lo que indica un aumento significativo en la eficiencia. Los resultados preliminares sugieren avances prometedores en los modelos de generación de imágenes.

Autoencoders de Representación Laminada para una Difusión Eficiente

Investigadores han presentado FlatDINO, un autoencoder variacional diseñado para optimizar las densas cuadrículas de parches de codificadores como DINOv2, que a menudo generan un aumento en los costos computacionales. FlatDINO comprime la representación en una secuencia unidimensional de 32 tokens continuos, logrando una reducción de 8x en la longitud de la secuencia y una compresión de 48x en la dimensionalidad total.

Cuando un modelo DiT-XL es entrenado con latentes de FlatDINO, logra una puntuación de distancia de Fréchet Inception generalizada (gFID) de 1.80 con guía sin clasificador, requiriendo 8x menos operaciones en punto flotante (FLOPs) por pasada hacia adelante y hasta 4.5x menos FLOPs por paso de entrenamiento en comparación con los métodos de difusión tradicionales que utilizan características no comprimidas de DINOv2.

Temas relacionados:

AutoencodersDifusión EficienteFlatDINOcompresióncaracterísticas DINOv2

📰 Fuente original: https://arxiv.org/abs/2602.04873v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit