Aprendizaje en el Manifold: Desbloqueo de Transformadores de Difusión Estándar con Codificadores de Representación

Imagen generada por Gemini AI
Un nuevo enfoque denominado Matching de Flujos Riemannianos con Regularización de Jacobi (RJF) aborda los problemas de convergencia en transformadores de difusión al generar salidas de alta fidelidad a partir de codificadores de representación. Al centrarse en las geodésicas de la variedad y corregir errores de curvatura, RJF permite que la arquitectura DiT-B (131 millones de parámetros) logre un destacado puntaje FID de 3.37, superando a métodos anteriores. El código está disponible en el enlace de GitHub proporcionado.
Desbloqueando Transformadores de Difusión Estándar con Emparejamiento de Flujo Riemanniano
Un nuevo enfoque, Emparejamiento de Flujo Riemanniano con Regularización de Jacobi (RJF), resuelve problemas de convergencia en transformadores de difusión estándar. Este método permite que los transformadores de difusión funcionen mejor sin modificaciones costosas.
Investigaciones anteriores vincularon las fallas de convergencia a un cuello de botella de capacidad, pero este estudio identifica la Interferencia Geométrica como la causa principal. Esto ocurre cuando el emparejamiento de flujo estándar dirige los caminos de probabilidad a través de regiones de baja densidad en lugar de a lo largo de la superficie del conjunto donde se concentran los puntos de datos.
Introduciendo el Emparejamiento de Flujo Riemanniano
El método RJF restringe el proceso generativo a seguir geodésicas del conjunto, reduciendo la propagación de errores inducida por la curvatura. Esto permite que la arquitectura DiT-B, con 131 millones de parámetros, logre una Distancia de Incepción de Fréchet (FID) de 3.37, marcando una mejora significativa sobre métodos anteriores.
Implicaciones para la Modelación Generativa
La introducción de RJF mejora la fidelidad de las salidas generativas. El equipo de investigación ha hecho que la implementación de RJF esté disponible públicamente en GitHub.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.10099v1
Todos los derechos y créditos pertenecen al editor original.