AI
Notícias IA

Stream-DiffVSR: Super-Resolução de Vídeo Streamável em Baixa Latência por Meio de Difusão Auto-Regressiva

Source:arXiv
Autor original:Hau-Shiang Shiu et al.
Stream-DiffVSR: Super-Resolução de Vídeo Streamável em Baixa Latência por Meio de Difusão Auto-Regressiva

Imagem gerada por Gemini AI

O Stream-DiffVSR apresenta uma estrutura de difusão condicionada causal para super-resolução de vídeos, permitindo processamento em tempo real com base apenas em quadros anteriores. O sistema conta com um desnoiser destilado em quatro etapas e um módulo de Orientação Temporal Auto-regressiva, conseguindo processar quadros em 720p em apenas 0,328 segundos em uma GPU RTX4090. Esse método reduz a latência em mais de 130 vezes em comparação com as técnicas de ponta existentes, tornando-o viável para aplicações que exigem baixa latência. Mais detalhes estão disponíveis na página do projeto.

Stream-DiffVSR: Uma Revolução em Super-Resolução de Vídeo com Baixa Latência

Uma nova estrutura, Stream-DiffVSR, surgiu como uma solução para super-resolução de vídeo (VSR) em aplicações sensíveis à latência. Ao focar exclusivamente em quadros passados, o Stream-DiffVSR reduz significativamente os tempos de processamento enquanto melhora a qualidade perceptual.

Inovações Técnicas e Métricas de Desempenho

  • Um denoiser destilado em quatro etapas que acelera os tempos de inferência.
  • Um módulo de Orientação Temporal Auto-regressiva (ARTG) que fornece dicas alinhadas ao movimento durante a denoising latente.
  • Um decodificador leve e consciente do tempo, apresentando um Módulo de Processamento Temporal (TPM) para melhorar detalhes e manter a coerência temporal.

Em uma GPU RTX4090, o Stream-DiffVSR pode processar quadros de vídeo em 720p em apenas 0,328 segundos, marcando uma melhoria significativa em relação aos métodos anteriores. Comparado ao modelo atual de ponta TMP, o Stream-DiffVSR apresenta uma melhoria de +0,095 nos scores LPIPS, enquanto alcança uma redução de latência de mais de 130 vezes.

Implicações para Implantação Online

As capacidades do Stream-DiffVSR o posicionam como o primeiro método de VSR por difusão viável para aplicações online de baixa latência, potencialmente transformando setores que dependem do processamento de vídeo em tempo real.

Tópicos relacionados:

Stream-DiffVSRsuper-resolução de vídeobaixa latênciadenoisinginferência rápida

📰 Fonte original: https://arxiv.org/abs/2512.23709v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo