AI
Notizie IA

PixelGen: La Diffusione dei Pixel Supera la Diffusione Latente con la Perdita Perceptuale

Source:arXiv
Autore originale:Zehong Ma et al.
PixelGen: La Diffusione dei Pixel Supera la Diffusione Latente con la Perdita Perceptuale

Immagine generata da Gemini AI

PixelGen è un innovativo framework di diffusione dei pixel che supera le limitazioni dei tradizionali modelli di diffusione latente a due fasi, ottimizzando direttamente nello spazio dei pixel. Utilizza due perdite percettive—LPIPS per i pattern locali e DINO per la semantica globale—per migliorare la qualità dell'immagine. PixelGen raggiunge un punteggio FID competitivo di 5.11 su ImageNet-256 con sole 80 epoche di addestramento e dimostra prestazioni elevate in compiti di generazione testo-immagine su larga scala, come evidenziato da un punteggio GenEval di 0.79. Questo approccio elimina la necessità di VAE e fasi ausiliarie, offrendo un modello generativo snello ed efficace. Il codice completo è disponibile su GitHub.

PixelGen Supera la Diffusione Latente con una Innovativa Perdita Perceptuale

PixelGen, un nuovo framework di diffusione dei pixel, ha dimostrato prestazioni superiori rispetto ai tradizionali modelli di diffusione latente integrando la supervisione percettiva. Questo progresso consente la generazione diretta di immagini nello spazio dei pixel, eliminando artefatti e colli di bottiglia associati ai processi di diffusione latente in due fasi.

Metrica di Prestazione Chiave

In test rigorosi, PixelGen ha ottenuto un punteggio Fréchet Inception Distance (FID) di 5.11 sul dataset ImageNet-256, senza utilizzare guida senza classificatori e impiegando solo 80 epoche di addestramento. Questo segna un miglioramento significativo rispetto alle attuali linee di base della diffusione latente.

Inoltre, PixelGen ha mostrato impressionanti capacità di scalabilità nei compiti di generazione di testo in immagine, raggiungendo un punteggio GenEval di 0.79. Il design del framework elimina la necessità di autoencoder variationali (VAE) e rappresentazioni latenti, semplificando così il processo generativo.

Disponibilità

Sviluppatori e ricercatori possono accedere al codice pubblicamente presso questo repository GitHub.

Argomenti correlati:

PixelGenpixel diffusionsupervisione percettivaperdita LPIPSImageNet-256

📰 Fonte originale: https://arxiv.org/abs/2602.02493v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo