AI
Actualités IA

PixelGen : La diffusion de pixels surpasse la diffusion latente grâce à la perte perceptuelle

Source:arXiv
Auteur original:Zehong Ma et al.
PixelGen : La diffusion de pixels surpasse la diffusion latente grâce à la perte perceptuelle

Image générée par Gemini AI

PixelGen est un nouveau cadre de diffusion de pixels qui contourne les limitations des modèles de diffusion latente traditionnels en optimisant directement dans l'espace pixel. Il utilise deux pertes perceptuelles—LPIPS pour les motifs locaux et DINO pour la sémantique globale—afin d'améliorer la qualité des images. PixelGen atteint un FID compétitif de 5,11 sur ImageNet-256 avec seulement 80 époques d'entraînement et démontre de solides performances dans des tâches de génération d'images à partir de texte à grande échelle, comme en témoigne un score GenEval de 0,79. Cette approche élimine le besoin de VAE et d'étapes auxiliaires, offrant ainsi un modèle génératif à la fois simplifié et efficace. Le code complet est disponible sur GitHub.

PixelGen Surpasse la Diffusion Latente grâce à une Perte Perceptuelle Innovante

PixelGen, un nouveau cadre de diffusion de pixels, a démontré des performances supérieures par rapport aux modèles de diffusion latente traditionnels en intégrant une supervision perceptuelle. Cette avancée permet une génération d'images directe dans l'espace pixel, éliminant les artefacts et les goulets d'étranglement associés aux processus de diffusion latente en deux étapes.

Métriques de Performance Clés

Lors de tests rigoureux, PixelGen a atteint un score de Fréchet Inception Distance (FID) de 5.11 sur le jeu de données ImageNet-256, sans utiliser de guidance sans classificateur et en n'effectuant que 80 époques d'entraînement. Cela constitue une amélioration significative par rapport aux références de diffusion latente existantes.

De plus, PixelGen a montré des capacités d'évolutivité impressionnantes dans les tâches de génération de texte à image, atteignant un score GenEval de 0.79. La conception du cadre élimine le besoin d'autoencodeurs variationnels (VAE) et de représentations latentes, simplifiant ainsi le processus génératif.

Disponibilité

Les développeurs et chercheurs peuvent accéder au code publiquement sur ce dépôt GitHub.

Sujets connexes :

PixelGendiffusion de pixelsperte perceptuellemodèles de diffusion latentescore FID

📰 Source originale : https://arxiv.org/abs/2602.02493v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article