Diffusion-DRF : Flux de Récompense Différentiable pour le Finition de Diffusion Vidéo

•

Auteur original:Yifan Wang et al.

•

7 janvier 2026

Diffusion-DRF : Flux de Récompense Différentiable pour le Finition de Diffusion Vidéo

Image générée par Gemini AI

L'Optimisation de Préférences Directes (DPO) améliore la génération de vidéos à partir de textes, mais rencontre des défis liés à un entraînement intensif en étiquettes et aux biais. La méthode Diffusion-DRF proposée utilise un Modèle Vision-Langage figé comme critique différentiable, permettant ainsi une rétropropagation efficace des retours d'information à travers les modèles de diffusion vidéo. Cette approche améliore la qualité des vidéos et leur alignement sémantique tout en réduisant les problèmes de manipulation des récompenses, et elle est adaptable à d'autres tâches basées sur la diffusion sans nécessiter de modèles de récompense supplémentaires.

Diffusion-DRF : Une percée dans le réglage fin de la diffusion vidéo

Des chercheurs ont introduit Diffusion-DRF, une méthode novatrice pour le réglage fin des modèles de diffusion vidéo qui améliore la qualité vidéo et l'alignement sémantique. Cette approche s'appuie sur un modèle Vision-Language (VLM) gelé en tant que critique sans entraînement, marquant un avancement significatif par rapport aux méthodes existantes.

Diffusion-DRF répond aux défis courants de la génération traditionnelle de texte à vidéo (T2V) en intégrant les retours d'expérience du VLM directement dans la chaîne de débruitage de diffusion. Cette méthode permet la rétropropagation des retours du VLM, transformant les réponses au niveau des logit en gradients sensibles aux tokens qui facilitent l'optimisation, atténuant ainsi efficacement les problèmes liés au hacking des récompenses et à l'effondrement du modèle.

Il est à noter que Diffusion-DRF est agnostique au modèle, applicable à diverses tâches génératives basées sur la diffusion au-delà de la génération T2V, le positionnant comme un outil précieux pour les avancées futures dans la génération vidéo.

Sujets connexes :

Diffusion-DRFoptimisation des préférences directesgénération de vidéos à partir de textemodèle de vision-langagealignement sémantique

📰 Source originale : https://arxiv.org/abs/2601.04153v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit