PixelGen: La Difusión de Píxeles Supera la Difusión Latente con Pérdida Perceptual

Imagen generada por Gemini AI
PixelGen es un novedoso marco de difusión de píxeles que supera las limitaciones de los modelos de difusión latente tradicionales de dos etapas al optimizar directamente en el espacio de píxeles. Utiliza dos pérdidas perceptuales—LPIPS para patrones locales y DINO para la semántica global—con el fin de mejorar la calidad de las imágenes. PixelGen logra un índice FID competitivo de 5.11 en ImageNet-256 tras solo 80 épocas de entrenamiento y muestra un rendimiento sólido en tareas de texto a imagen a gran escala, como lo demuestra un puntaje GenEval de 0.79. Este enfoque elimina la necesidad de VAEs y etapas auxiliares, ofreciendo un modelo generativo más ágil y efectivo. El código completo está disponible en GitHub.
PixelGen Supera a la Difusión Latente con una Innovadora Pérdida Perceptual
PixelGen, un nuevo marco de difusión de píxeles, ha demostrado un rendimiento superior frente a los modelos tradicionales de difusión latente al incorporar supervisión perceptual. Este avance permite la generación directa de imágenes en el espacio de píxeles, eliminando artefactos y cuellos de botella asociados con los procesos de difusión latente en dos etapas.
Métricas Clave de Rendimiento
En pruebas rigurosas, PixelGen logró una puntuación de Fréchet Inception Distance (FID) de 5.11 en el conjunto de datos ImageNet-256, sin emplear guía sin clasificador y utilizando solo 80 épocas de entrenamiento. Esto marca una mejora significativa respecto a las líneas base de difusión latente existentes.
Además, PixelGen mostró capacidades de escalado impresionantes en tareas de generación de texto a imagen, alcanzando una puntuación de GenEval de 0.79. El diseño del marco elimina la necesidad de autoencoders variacionales (VAEs) y representaciones latentes, simplificando así el proceso generativo.
Disponibilidad
Los desarrolladores e investigadores pueden acceder al código públicamente en este repositorio de GitHub.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.02493v1
Todos los derechos y créditos pertenecen al editor original.