AI
Actualités IA

Stream-DiffVSR : Super-résolution vidéo en temps réel à faible latence via diffusion auto-régressive

Source:arXiv
Auteur original:Hau-Shiang Shiu et al.
Stream-DiffVSR : Super-résolution vidéo en temps réel à faible latence via diffusion auto-régressive

Image générée par Gemini AI

Stream-DiffVSR présente un cadre de diffusion conditionné causal pour la super-résolution vidéo, permettant un traitement en temps réel en s'appuyant uniquement sur les images passées. Il intègre un débruiteur distillé en quatre étapes et un module de guidance temporelle auto-régressive, atteignant un traitement de cadre en 720p en seulement 0,328 seconde sur un GPU RTX 4090. Cette méthode réduit la latence de plus de 130 fois par rapport aux méthodes actuelles les plus performantes, la rendant ainsi adaptée aux applications à faible latence. Pour plus de détails, consultez la page du projet.

Stream-DiffVSR : Une percée dans la super-résolution vidéo à faible latence

Un nouveau cadre, Stream-DiffVSR, a émergé comme une solution pour la super-résolution vidéo (VSR) dans des applications sensibles à la latence. En se concentrant uniquement sur les images passées, Stream-DiffVSR réduit considérablement les temps de traitement tout en améliorant la qualité perceptuelle.

Innovations techniques et métriques de performance

  • Un débruiteur distillé en quatre étapes qui accélère les temps d'inférence.
  • Un module de guidance temporelle auto-régressive (ARTG) qui fournit des indices alignés sur le mouvement lors du débruitage latent.
  • Un décodeur léger conscient du temps, doté d'un module de traitement temporel (TPM) pour améliorer les détails et maintenir la cohérence temporelle.

Sur un GPU RTX4090, Stream-DiffVSR peut traiter des images vidéo en 720p en seulement 0,328 secondes, marquant une amélioration significative par rapport aux méthodes précédentes. Comparé au modèle de pointe actuel TMP, Stream-DiffVSR affiche une amélioration de +0,095 des scores LPIPS tout en atteignant une réduction de latence de plus de 130 fois.

Implications pour le déploiement en ligne

Les capacités de Stream-DiffVSR le positionnent comme la première méthode de VSR par diffusion viable pour des applications en ligne à faible latence, transformant potentiellement des secteurs qui dépendent du traitement vidéo en temps réel.

Sujets connexes :

Stream-DiffVSRsuper-résolution vidéofaible latencedébruiteur distilléGuidage Temporel Auto-régressif

📰 Source originale : https://arxiv.org/abs/2512.23709v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article