AI
Notícias IA

Aprendizado no Manifold: Desbloqueando Transformers de Difusão Padrão com Codificadores de Representação

Source:arXiv
Autor original:Amandeep Kumar et al.
Aprendizado no Manifold: Desbloqueando Transformers de Difusão Padrão com Codificadores de Representação

Imagem gerada por Gemini AI

Uma nova abordagem chamada Riemannian Flow Matching com Regularização de Jacobi (RJF) aborda problemas de convergência em transformadores de difusão ao gerar saídas de alta fidelidade a partir de codificadores de representação. Ao se concentrar nas geodésicas de variedades e corrigir erros de curvatura, o RJF permite que a arquitetura DiT-B (131 milhões de parâmetros) alcance um expressivo índice FID de 3.37, superando métodos anteriores. O código está disponível no link do GitHub fornecido.

Desbloqueando Transformadores de Difusão Padrão com Correspondência de Fluxo Riemanniana

Uma nova abordagem, Correspondência de Fluxo Riemanniana com Regularização de Jacobi (RJF), resolve problemas de convergência em transformadores de difusão padrão. Este método permite que os transformadores de difusão tenham um desempenho melhor sem modificações caras.

Pesquisas anteriores ligaram falhas de convergência a um gargalo de capacidade, mas este estudo identifica a Interferência Geométrica como a causa principal. Isso ocorre quando a correspondência de fluxo padrão direciona caminhos de probabilidade através de regiões de baixa densidade em vez de ao longo da superfície do manifold onde os pontos de dados estão concentrados.

Apresentando a Correspondência de Fluxo Riemanniana

O método RJF restringe o processo generativo a seguir geodésicas de manifold, reduzindo a propagação de erros induzidos pela curvatura. Isso permite que a arquitetura DiT-B, com 131 milhões de parâmetros, alcance uma Distância de Fréchet de Incepção (FID) de 3,37, marcando uma melhoria significativa em relação aos métodos anteriores.

Implicações para Modelagem Generativa

A introdução do RJF aumenta a fidelidade das saídas generativas. A equipe de pesquisa disponibilizou a implementação do RJF publicamente no GitHub.

Tópicos relacionados:

codificadores de representaçãotransformadores de difusãoInterferência GeométricaEmparelhamento de Fluxo RiemannianoRJF

📰 Fonte original: https://arxiv.org/abs/2602.10099v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo