CamPilot: Mejora del Control de Cámara en Modelos de Difusión de Video con Retroalimentación Eficiente de Recompensa de Cámara

Imagen generada por Gemini AI
Investigaciones recientes han mejorado los modelos de difusión de video controlados por cámara, abordando las limitaciones en la capacidad de control. El estudio presenta un decodificador 3D eficiente que transforma la representación latente del video y la posición de la cámara en representaciones tridimensionales, optimizando la consistencia a nivel de píxel para lograr una mejor alineación. Este método soluciona deficiencias existentes en los modelos de recompensa y reduce la carga computacional, demostrando su efectividad en los benchmarks RealEstate10K y WorldScore. Para más detalles, visita la [página de CamPilot](https://a-bigbao.github.io/CamPilot/).
CamPilot Introduce Retroalimentación de Recompensa Eficiente para Mejorar Modelos de Difusión de Video
Investigadores han presentado CamPilot, un enfoque innovador que aprovecha el Aprendizaje de Retroalimentación de Recompensa (ReFL) para mejorar la controlabilidad de la cámara en la generación de video. Este método aborda los desafíos persistentes en la alineación del video con las entradas de la cámara.
El equipo de CamPilot desarrolló un decodificador 3D eficiente consciente de la cámara que traduce la latencia del video en representaciones 3D para la cuantización de recompensas. Este modelo utiliza la posición de la cámara como tanto una entrada como un parámetro de proyección, reduciendo las distorsiones geométricas que pueden llevar a renderizados borrosos.
Optimizaron la consistencia a nivel de píxel entre las vistas renderizadas y las imágenes de verdad terreno como un mecanismo de recompensa, introduciendo un término de visibilidad para supervisar selectivamente regiones deterministas a través de deformaciones geométricas.
Los experimentos en los benchmarks RealEstate10K y WorldScore muestran mejoras significativas en la controlabilidad de la cámara y la calidad del video, destacando el potencial de CamPilot en la generación de video.
Para más información, visita la Página del Proyecto CamPilot.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.16214v1
Todos los derechos y créditos pertenecen al editor original.