AI
Noticias IA

PixelGen: La Difusión de Píxeles Supera la Difusión Latente con Pérdida Perceptual

Source:arXiv
Autor original:Zehong Ma et al.
PixelGen: La Difusión de Píxeles Supera la Difusión Latente con Pérdida Perceptual

Imagen generada por Gemini AI

PixelGen es un novedoso marco de difusión de píxeles que supera las limitaciones de los modelos de difusión latente tradicionales de dos etapas al optimizar directamente en el espacio de píxeles. Utiliza dos pérdidas perceptuales—LPIPS para patrones locales y DINO para la semántica global—con el fin de mejorar la calidad de las imágenes. PixelGen logra un índice FID competitivo de 5.11 en ImageNet-256 tras solo 80 épocas de entrenamiento y muestra un rendimiento sólido en tareas de texto a imagen a gran escala, como lo demuestra un puntaje GenEval de 0.79. Este enfoque elimina la necesidad de VAEs y etapas auxiliares, ofreciendo un modelo generativo más ágil y efectivo. El código completo está disponible en GitHub.

PixelGen Supera a la Difusión Latente con una Innovadora Pérdida Perceptual

PixelGen, un nuevo marco de difusión de píxeles, ha demostrado un rendimiento superior frente a los modelos tradicionales de difusión latente al incorporar supervisión perceptual. Este avance permite la generación directa de imágenes en el espacio de píxeles, eliminando artefactos y cuellos de botella asociados con los procesos de difusión latente en dos etapas.

Métricas Clave de Rendimiento

En pruebas rigurosas, PixelGen logró una puntuación de Fréchet Inception Distance (FID) de 5.11 en el conjunto de datos ImageNet-256, sin emplear guía sin clasificador y utilizando solo 80 épocas de entrenamiento. Esto marca una mejora significativa respecto a las líneas base de difusión latente existentes.

Además, PixelGen mostró capacidades de escalado impresionantes en tareas de generación de texto a imagen, alcanzando una puntuación de GenEval de 0.79. El diseño del marco elimina la necesidad de autoencoders variacionales (VAEs) y representaciones latentes, simplificando así el proceso generativo.

Disponibilidad

Los desarrolladores e investigadores pueden acceder al código públicamente en este repositorio de GitHub.

Temas relacionados:

PixelGendifusión de píxelespérdidas perceptualesaprendizaje de patrones localesgeneración de texto a imagen

📰 Fuente original: https://arxiv.org/abs/2602.02493v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo