Autoencoders de Representação Laminada para Difusão Eficiente

Imagem gerada por Gemini AI
Pesquisadores desenvolveram o FlatDINO, um autoencoder variacional que comprime grades densas de patchs de modelos como o DINOv2 em uma sequência unidimensional de 32 tokens, reduzindo a dimensionalidade em 48 vezes. No conjunto de dados ImageNet 256x256, um modelo DiT-XL utilizando FlatDINO alcança um gFID de 1,80, enquanto requer 8 vezes menos operações de ponto flutuante (FLOPs) por passagem de inferência e até 4,5 vezes menos para treinamento, indicando ganhos significativos em eficiência. Resultados preliminares sugerem avanços promissores em modelos de geração de imagens.
Autoencoders de Representação Laminada para Difusão Eficiente
Pesquisadores introduziram o FlatDINO, um autoencoder variacional projetado para simplificar as grades densas de patch de encoders como o DINOv2, que muitas vezes levam a um aumento nos custos computacionais. O FlatDINO comprime a representação em uma sequência unidimensional de 32 tokens contínuos, alcançando uma redução de 8x no comprimento da sequência e uma compressão de 48x na dimensionalidade total.
Quando um modelo DiT-XL é treinado com os latentes do FlatDINO, ele atinge uma pontuação de Distância de Fréchet Inception generalizada (gFID) de 1,80 com orientação sem classificador, exigindo 8x menos operações de ponto flutuante (FLOPs) por passagem direta e até 4,5x menos FLOPs por passo de treinamento em comparação com métodos de difusão tradicionais que utilizam características não comprimidas do DINOv2.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.04873v1
Todos os direitos e créditos pertencem ao editor original.