Переосмысление диффузионных моделей с учетом симметрий через канониализацию с применением к генерации молекулярных графов

Изображение создано Gemini AI
Исследователи предлагают новый подход к генеративным задачам в химии, отказываясь от традиционных инвариантных и эквариантных моделей. Они вводят метод канонизации, который упрощает процесс обучения и повышает производительность, преобразуя образцы в стандартизированную форму перед применением неэквариантных моделей. Эта структура, протестированная на генерации молекулярных графов с симметриями $S_n \times SE(3)$, превосходит существующие модели, особенно в области генерации 3D-молекул, демонстрируя передовые результаты на наборе данных GEOM-DRUG.
Новый подход к моделям диффузии улучшает генерацию молекулярных графов
Недавнее исследование представляет собой новый метод генерации молекулярных графов с использованием подхода каноникализации, который опирается на симметрии групп. Этот метод демонстрирует улучшенную эффективность и производительность по сравнению с традиционными стратегиями.
Традиционно генеративные модели полагались на эквариантные денойзеры для обработки распределений, инвариантных по отношению к симметриям групп. Последние исследования предлагают трехступенчатый процесс: отображение образцов на представителя орбиты, обучение неэквариантной модели диффузии на этом каноническом срезе и восстановление инвариантного распределения через случайные симметричные преобразования.
Ключевые выводы
- Корректность и универсальность канонических генеративных моделей, которые превосходят традиционные инвариантные цели.
- Увеличенная выразительность этих моделей, что приводит к повышению эффективности обучения.
- Ускорение обучения через каноникализацию, что снижает сложность, связанную с группами смесей.
Применение в генерации молекулярных графов
Авторы реализовали эту структуру в генерации молекулярных графов с учетом симметрий \(S_n \times SE(3)\). Их метод, Canon, значительно превзошел существующие эквариантные базовые модели в задачах генерации 3D молекул с сопоставимыми или сниженными вычислительными затратами.
CanonFlow достиг состояния наилучшего результата на наборе данных GEOM-DRUG, демонстрируя преимущества даже в сценариях генерации с небольшим количеством шагов.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.15022v1
Все права и авторство принадлежат первоначальному издателю.