Apprentissage sur le Manifold : Déverrouillage des transformateurs de diffusion standard avec des encodeurs de représentation

Image générée par Gemini AI
Une nouvelle approche, appelée Riemannian Flow Matching avec régularisation de Jacobi (RJF), s'attaque aux problèmes de convergence rencontrés par les transformateurs de diffusion lors de la génération de sorties de haute fidélité à partir d'encodeurs de représentation. En se concentrant sur les géodésiques des variétés et en corrigeant les erreurs de courbure, RJF permet à l'architecture DiT-B (131 millions de paramètres) d'atteindre un score FID impressionnant de 3,37, surpassant ainsi les méthodes précédentes. Le code est disponible via le lien GitHub fourni.
Déverrouiller les Transformateurs de Diffusion Standards avec le Correspondance de Flux Riemannien
Une nouvelle approche, le Correspondance de Flux Riemannien avec Régularisation de Jacobi (RJF), résout les problèmes de convergence dans les transformateurs de diffusion standards. Cette méthode permet aux transformateurs de diffusion de mieux fonctionner sans modifications coûteuses.
Des recherches précédentes ont lié les échecs de convergence à un goulet d'étranglement de capacité, mais cette étude identifie l'Interférence Géométrique comme la cause principale. Cela se produit lorsque le correspondance de flux standard dirige les chemins de probabilité à travers des régions de faible densité au lieu de les faire passer le long de la surface du variéte où les points de données sont concentrés.
Présentation du Correspondance de Flux Riemannien
La méthode RJF contraint le processus génératif à suivre les géodésiques de la variéte, réduisant ainsi la propagation d'erreurs induites par la courbure. Cela permet à l'architecture DiT-B, avec 131 millions de paramètres, d'atteindre une Distance d'Inception de Fréchet (FID) de 3,37, marquant une amélioration significative par rapport aux méthodes précédentes.
Implications pour la Modélisation Générative
L'introduction de RJF améliore la fidélité des sorties génératives. L'équipe de recherche a rendu l'implémentation de RJF disponible publiquement sur GitHub.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.10099v1
Tous les droits et crédits appartiennent à l'éditeur original.