PixelGen: Pixel-Diffusion übertrifft latente Diffusion mit perceptuellem Verlust

Von Gemini AI generiertes Bild
PixelGen ist ein neuartiges Pixel-Diffusionsframework, das die Einschränkungen traditioneller zweistufiger latenter Diffusionsmodelle umgeht, indem es direkt im Pixelfeld optimiert. Es nutzt zwei perceptuelle Verluste – LPIPS für lokale Muster und DINO für globale Semantik –, um die Bildqualität zu verbessern. PixelGen erreicht einen wettbewerbsfähigen FID-Wert von 5,11 auf ImageNet-256 mit nur 80 Trainingsepochen und zeigt starke Leistungen bei großangelegten Text-zu-Bild-Aufgaben, wie durch einen GenEval-Wert von 0,79 belegt wird. Dieser Ansatz macht den Einsatz von VAEs und zusätzlichen Phasen überflüssig und bietet ein schlankes und effektives generatives Modell. Der vollständige Code ist auf GitHub verfügbar.
PixelGen übertrifft latente Diffusion mit innovativem perceptuellem Verlust
PixelGen, ein neuartiges Pixel-Diffusionsframework, hat eine überlegene Leistung gegenüber traditionellen latenten Diffusionsmodellen gezeigt, indem es perceptuelle Überwachung integriert. Dieser Fortschritt ermöglicht die direkte Bildgenerierung im Pixelfeld, wodurch Artefakte und Engpässe, die mit zweistufigen latenten Diffusionsprozessen verbunden sind, beseitigt werden.
Wichtige Leistungskennzahlen
In rigorosen Tests erzielte PixelGen einen Fréchet Inception Distance (FID) Score von 5,11 im ImageNet-256-Datensatz, ohne klassifikatorfreie Anleitung einzusetzen und nur 80 Trainingsepochen zu nutzen. Dies stellt eine erhebliche Verbesserung gegenüber bestehenden latenten Diffusions-Baselines dar.
Darüber hinaus zeigte PixelGen beeindruckende Skalierungsmöglichkeiten bei Aufgaben zur Text-zu-Bild-Generierung und erreichte einen GenEval-Score von 0,79. Das Design des Frameworks beseitigt die Notwendigkeit für variational autoencoders (VAEs) und latente Darstellungen, wodurch der generative Prozess optimiert wird.
Verfügbarkeit
Entwickler und Forscher können den Code öffentlich in diesem GitHub-Repository einsehen.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.02493v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.