AI
Notícias IA

PixelGen: Difusão de Pixels Supera Difusão Latente com Perda Perceptual

Source:arXiv
Autor original:Zehong Ma et al.
PixelGen: Difusão de Pixels Supera Difusão Latente com Perda Perceptual

Imagem gerada por Gemini AI

PixelGen é uma nova estrutura de difusão de pixels que contorna as limitações dos modelos tradicionais de difusão latente em duas etapas, otimizando diretamente no espaço de pixels. O framework utiliza duas perdas perceptuais—LPIPS para padrões locais e DINO para semântica global—para aprimorar a qualidade das imagens. O PixelGen alcança um FID competitivo de 5,11 no ImageNet-256 com apenas 80 épocas de treinamento e demonstra um desempenho sólido em tarefas de geração de texto para imagem em larga escala, como evidenciado por uma pontuação de GenEval de 0,79. Essa abordagem elimina a necessidade de VAEs e etapas auxiliares, oferecendo um modelo gerador mais enxuto e eficaz. O código completo está disponível no GitHub.

PixelGen Supera a Difusão Latente com Inovadora Perda Perceptual

PixelGen, uma nova estrutura de difusão de pixels, demonstrou desempenho superior em relação aos modelos tradicionais de difusão latente ao incorporar supervisão perceptual. Este avanço permite a geração direta de imagens no espaço de pixels, eliminando artefatos e gargalos associados aos processos de difusão latente em duas etapas.

Métricas de Desempenho Chave

Em testes rigorosos, o PixelGen alcançou uma pontuação de Fréchet Inception Distance (FID) de 5.11 no conjunto de dados ImageNet-256, sem empregar orientação sem classificador e utilizando apenas 80 épocas de treinamento. Isso marca uma melhoria significativa em relação às linhas de base existentes de difusão latente.

Além disso, o PixelGen demonstrou impressionantes capacidades de escalabilidade em tarefas de geração de texto para imagem, alcançando uma pontuação de GenEval de 0.79. O design da estrutura elimina a necessidade de autoencoders variacionais (VAEs) e representações latentes, simplificando assim o processo generativo.

Disponibilidade

Desenvolvedores e pesquisadores podem acessar o código publicamente em este repositório do GitHub.

Tópicos relacionados:

PixelGendifusão de pixelssupervisão perceptualperda LPIPSdesempenho escalável

📰 Fonte original: https://arxiv.org/abs/2602.02493v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo