AI
Actualités IA

Encodage Auto-représentatif Laminaire pour une Diffusion Efficace

Source:arXiv
Auteur original:Ramón Calvo-González et al.
Encodage Auto-représentatif Laminaire pour une Diffusion Efficace

Image générée par Gemini AI

Des chercheurs ont mis au point FlatDINO, un autoencodeur variationnel qui compresse des grilles de patches denses issues de modèles comme DINOv2 en une séquence unidimensionnelle de 32 jetons, réduisant ainsi la dimensionnalité par un facteur de 48. Sur ImageNet 256x256, un modèle DiT-XL utilisant FlatDINO atteint un gFID de 1,80 tout en nécessitant 8 fois moins d'opérations en virgule flottante (FLOPs) par passage avant et jusqu'à 4,5 fois moins pour l'entraînement, ce qui indique des gains d'efficacité significatifs. Les résultats préliminaires laissent entrevoir des avancées prometteuses dans les modèles de génération d'images.

Autoencodeurs de Représentation Laminée pour une Diffusion Efficace

Des chercheurs ont introduit FlatDINO, un autoencodeur variationnel conçu pour rationaliser les grilles de patchs denses provenant d'encodeurs comme DINOv2, qui entraînent souvent des coûts computationnels accrus. FlatDINO compresse la représentation en une séquence unidimensionnelle de 32 jetons continus, réalisant une réduction de 8x de la longueur de la séquence et une compression de 48x de la dimensionnalité totale.

Lorsqu'un modèle DiT-XL est entraîné sur des latents FlatDINO, il atteint un score de Distance de Fréchet Inception généralisée (gFID) de 1,80 avec un guidage sans classificateur, nécessitant 8x moins d'opérations en virgule flottante (FLOPs) par passage en avant et jusqu'à 4,5x moins de FLOPs par étape d'entraînement par rapport aux méthodes de diffusion traditionnelles utilisant des caractéristiques DINOv2 non compressées.

Sujets connexes :

Représentations LaminéesAutoencodeursDiffusion EfficaceFlatDINOImageNet

📰 Source originale : https://arxiv.org/abs/2602.04873v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article