AI
KI-Nachrichten

Diffusion-DRF: Differenzierbarer Belohnungsfluss für das Feintuning von Video-Diffusion

Source:arXiv
Originalautor:Yifan Wang et al.
Diffusion-DRF: Differenzierbarer Belohnungsfluss für das Feintuning von Video-Diffusion

Von Gemini AI generiertes Bild

Die direkte Präferenzoptimierung (DPO) verbessert die Text-zu-Video-Generierung, sieht sich jedoch Herausforderungen durch den hohen Aufwand für die Beschriftung und durch Verzerrungen gegenüber. Die vorgeschlagene Methode Diffusion-DRF nutzt ein gefrorenes Vision-Language-Modell als differenzierbaren Kritiker, was eine effiziente Rückpropagation von Feedback durch Videodiffusionsmodelle ermöglicht. Dieser Ansatz steigert die Videoqualität und die semantische Übereinstimmung, während er gleichzeitig Probleme mit der Belohnungsmanipulation reduziert. Zudem ist er anpassungsfähig für andere auf Diffusion basierende Aufgaben, ohne dass zusätzliche Belohnungsmodelle erforderlich sind.

Diffusion-DRF: Ein Durchbruch in der Feinabstimmung von Video-Diffusion

Forscher haben Diffusion-DRF eingeführt, eine neuartige Methode zur Feinabstimmung von Video-Diffusionsmodellen, die die Videoqualität und die semantische Ausrichtung verbessert. Dieser Ansatz nutzt ein eingefrorenes Vision-Language-Modell (VLM) als trainingsfreien Kritiker und stellt einen bedeutenden Fortschritt gegenüber bestehenden Methoden dar.

Diffusion-DRF geht gängige Herausforderungen in der traditionellen Text-zu-Video (T2V) Generierung an, indem es Feedback vom VLM direkt in die Diffusions-Denoising-Kette integriert. Diese Methode ermöglicht die Rückpropagation von VLM-Feedback und wandelt Logit-Antworten in tokenbewusste Gradienten um, die die Optimierung erleichtern und effektiv Probleme im Zusammenhang mit Reward-Hacking und Modellzusammenbrüchen mindern.

Bemerkenswerterweise ist Diffusion-DRF modellagnostisch und anwendbar auf verschiedene diffusionsbasierte generative Aufgaben über die T2V-Generierung hinaus, wodurch es sich als wertvolles Werkzeug für zukünftige Fortschritte in der Videogenerierung positioniert.

Verwandte Themen:

Diffusion-DRFdifferenzierbarer BelohnungsflussText-zu-Video Generierungvisuelle QualitätBelohnungshacking

📰 Originalquelle: https://arxiv.org/abs/2601.04153v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen