La causalidad en los difusores de video es separable de la reducción de ruido

Imagen generada por Gemini AI
Se ha desarrollado una nueva arquitectura, Diffusión Causal Separada (SCD, por sus siglas en inglés), para mejorar los modelos de difusión causal utilizados en la generación de video. Al desacoplar el razonamiento temporal de la renderización de múltiples fotogramas, SCD optimiza la eficiencia, logrando un mayor rendimiento y reduciendo la latencia. Los experimentos demuestran que iguala o supera la calidad de los modelos existentes, lo que la convierte en una innovación prometedora en los procesos generativos.
Causalidad en Difusores de Video Separada del Denoising
Un estudio reciente revela que el razonamiento causal en modelos de difusión de video puede separarse claramente del proceso de denoising. Los investigadores demostraron que desacoplar la atención causal de los pasos iterativos de denoising puede mejorar la eficiencia y la calidad de salida.
El artículo identifica dos hallazgos significativos a través del examen de difusores de video autorregresivos. Las capas iniciales generan características muy similares en diferentes pasos de denoising, lo que lleva a cálculos redundantes. Las capas más profundas muestran una atención escasa entre fotogramas, enfocándose más en el renderizado dentro de fotogramas individuales.
En respuesta, los investigadores introdujeron una nueva arquitectura llamada Difusión Causal Separada (SCD). Este modelo emplea un codificador de transformador causal para manejar el razonamiento temporal en una base por fotograma, mientras utiliza un decodificador de difusión ligero para el renderizado. Esta separación mejora las métricas de rendimiento.
Los experimentos en varios benchmarks indican que SCD no solo iguala, sino que a menudo supera la calidad de generación de los modelos de difusión causal existentes, con mejoras significativas en el rendimiento y la latencia por fotograma.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.10095v1
Todos los derechos y créditos pertenecen al editor original.