Repensée des modèles de diffusion avec symétries par la canonisation, avec des applications à la génération de graphes moléculaires

Image générée par Gemini AI
Des chercheurs proposent une nouvelle approche pour les tâches génératives en chimie, s'éloignant des modèles invariants et équivariants traditionnels. Ils introduisent une méthode de canonicalisation qui simplifie l'entraînement et améliore les performances en mappant les échantillons vers une forme standardisée avant d'appliquer des modèles non équivariants. Ce cadre, testé sur la génération de graphes moléculaires avec des symétries $S_n \times SE(3)$, surpasse les modèles existants, en particulier dans la génération de molécules en 3D, démontrant des résultats à la pointe de la technologie sur le jeu de données GEOM-DRUG.
Une Nouvelle Approche aux Modèles de Diffusion Améliore la Génération de Graphes Moléculaires
Une étude récente introduit une méthode novatrice pour la génération de graphes moléculaires en utilisant une approche de canonicalisation qui exploite les symétries de groupe. Cette méthode montre une efficacité et une performance améliorées par rapport aux stratégies traditionnelles.
Traditionnellement, les modèles génératifs se sont appuyés sur des débruiteurs équivariants pour traiter des distributions invariantes aux symétries de groupe. La recherche la plus récente propose un processus en trois étapes : mapper les échantillons à un représentant d'orbite, entraîner un modèle de diffusion non équivariant sur ce tranchant canonique, et récupérer la distribution invariant par le biais de transformations de symétrie aléatoires.
Résultats Clés
- La justesse et l'universalité des modèles génératifs canoniques, qui surpassent les cibles invariantes traditionnelles.
- Une expressivité accrue de ces modèles, conduisant à des efficacités d'entraînement améliorées.
- Une accélération de l'entraînement grâce à la canonicalisation, réduisant la complexité associée aux mélanges de groupe.
Applications dans la Génération de Graphes Moléculaires
Les auteurs ont mis en œuvre ce cadre dans la génération de graphes moléculaires sous les symétries de \(S_n \times SE(3)\). Leur méthode, Canon, a largement surpassé les références équivariantes existantes dans les tâches de génération de molécules 3D avec des exigences computationnelles comparables ou réduites.
CanonFlow a atteint des performances de pointe sur le dataset GEOM-DRUG, montrant des avantages même dans des scénarios de génération en quelques étapes.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.15022v1
Tous les droits et crédits appartiennent à l'éditeur original.