La causalité dans les diffuseurs vidéo est dissociable du débruitage

Image générée par Gemini AI
Une nouvelle architecture, la Diffusion Causale Séparable (SCD), a été développée pour améliorer les modèles de diffusion causale utilisés dans la génération vidéo. En dissociant le raisonnement temporel du rendu d'images en plusieurs étapes, la SCD optimise l'efficacité, atteignant un débit plus élevé et une latence réduite. Les expériences montrent qu'elle égalise ou dépasse la qualité des modèles existants, ce qui en fait une innovation prometteuse dans les processus génératifs.
Causalité dans les diffuseurs vidéo séparée du débruitage
Une étude récente révèle que le raisonnement causal dans les modèles de diffusion vidéo peut être distinctement séparé du processus de débruitage. Les chercheurs ont démontré que le découplage de l'attention causale des étapes itératives de débruitage peut améliorer l'efficacité et la qualité de sortie.
Le document identifie deux résultats significatifs à travers l'examen des diffuseurs vidéo autorégressifs. Les premières couches génèrent des caractéristiques très similaires à travers différentes étapes de débruitage, entraînant des calculs redondants. Les couches plus profondes affichent une attention croisée sparce entre les images, se concentrant davantage sur le rendu au sein des images individuelles.
En réponse, les chercheurs ont introduit une nouvelle architecture appelée Diffusion Causale Séparable (DCS). Ce modèle utilise un encodeur de transformateur causal pour gérer le raisonnement temporel sur une base par image tout en utilisant un décodeur de diffusion léger pour le rendu. Cette séparation améliore les métriques de performance.
Des expériences sur divers benchmarks indiquent que la DCS non seulement égalise mais dépasse souvent la qualité de génération des modèles de diffusion causale existants, avec des améliorations significatives en termes de débit et de latence par image.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.10095v1
Tous les droits et crédits appartiennent à l'éditeur original.