Aprendizado no Manifold: Desbloqueando Transformers de Difusão Padrão com Codificadores de Representação

Imagem gerada por Gemini AI
Uma nova abordagem chamada Riemannian Flow Matching com Regularização de Jacobi (RJF) aborda problemas de convergência em transformadores de difusão ao gerar saídas de alta fidelidade a partir de codificadores de representação. Ao se concentrar nas geodésicas de variedades e corrigir erros de curvatura, o RJF permite que a arquitetura DiT-B (131 milhões de parâmetros) alcance um expressivo índice FID de 3.37, superando métodos anteriores. O código está disponível no link do GitHub fornecido.
Desbloqueando Transformadores de Difusão Padrão com Correspondência de Fluxo Riemanniana
Uma nova abordagem, Correspondência de Fluxo Riemanniana com Regularização de Jacobi (RJF), resolve problemas de convergência em transformadores de difusão padrão. Este método permite que os transformadores de difusão tenham um desempenho melhor sem modificações caras.
Pesquisas anteriores ligaram falhas de convergência a um gargalo de capacidade, mas este estudo identifica a Interferência Geométrica como a causa principal. Isso ocorre quando a correspondência de fluxo padrão direciona caminhos de probabilidade através de regiões de baixa densidade em vez de ao longo da superfície do manifold onde os pontos de dados estão concentrados.
Apresentando a Correspondência de Fluxo Riemanniana
O método RJF restringe o processo generativo a seguir geodésicas de manifold, reduzindo a propagação de erros induzidos pela curvatura. Isso permite que a arquitetura DiT-B, com 131 milhões de parâmetros, alcance uma Distância de Fréchet de Incepção (FID) de 3,37, marcando uma melhoria significativa em relação aos métodos anteriores.
Implicações para Modelagem Generativa
A introdução do RJF aumenta a fidelidade das saídas generativas. A equipe de pesquisa disponibilizou a implementação do RJF publicamente no GitHub.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2602.10099v1
Todos os direitos e créditos pertencem ao editor original.