Rappresentazioni di Autoencoder Laminati per una Diffusione Efficiente

Immagine generata da Gemini AI
I ricercatori hanno sviluppato FlatDINO, un'autoencoder variazionale che comprime griglie di patch dense provenienti da modelli come DINOv2 in una sequenza unidimensionale di 32 token, riducendo la dimensionalità di 48 volte. Su ImageNet 256x256, un DiT-XL che utilizza FlatDINO ottiene un gFID di 1,80, richiedendo però 8 volte meno FLOPs per ogni passaggio in avanti e fino a 4,5 volte meno durante l'addestramento, evidenziando così significativi guadagni in termini di efficienza. I risultati preliminari suggeriscono promettenti progressi nei modelli di generazione di immagini.
Rappresentazioni di Laminazione Autoencoder per una Diffusione Efficiente
I ricercatori hanno introdotto FlatDINO, un autoencoder variazionale progettato per semplificare le griglie di patch dense provenienti da encoder come DINOv2, che spesso comportano costi computazionali elevati. FlatDINO comprime la rappresentazione in una sequenza unidimensionale di 32 token continui, ottenendo una riduzione di 8 volte nella lunghezza della sequenza e una compressione di 48 volte nella dimensionalità totale.
Quando un modello DiT-XL viene addestrato su latenti FlatDINO, raggiunge un punteggio di Fréchet Inception Distance (gFID) generalizzato di 1.80 con guida senza classificatore, richiedendo 8 volte meno operazioni in virgola mobile (FLOPs) per ogni passaggio in avanti e fino a 4.5 volte meno FLOPs per ogni passo di allenamento rispetto ai metodi di diffusione tradizionali che utilizzano caratteristiche DINOv2 non compresse.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.04873v1
Tutti i diritti e i crediti appartengono all'editore originale.