La difusión conoce la transparencia: reutilización de la difusión de video para la estimación de profundidad y normales de objetos transparentes

Imagen generada por Gemini AI
Investigadores han desarrollado TransPhy3D, un conjunto de datos sintético de video que cuenta con 11,000 secuencias que muestran escenas transparentes y reflectantes, utilizando Blender/Cycles. Este conjunto de datos es fundamental para entrenar DKT, un traductor de video a video que mejora la estimación de profundidad y normales para objetos transparentes. DKT logra un rendimiento de vanguardia en pruebas como ClearPose y aumenta las tasas de éxito de agarre en superficies complejas, lo que demuestra el potencial de reutilizar modelos de difusión para tareas avanzadas de percepción en robótica.
Avances en la Estimación de Profundidad para Objetos Transparentes Usando Difusión de Video
Un equipo de investigación ha desarrollado un nuevo modelo, DKT, que mejora la estimación de profundidad y normales para objetos transparentes utilizando técnicas modernas de difusión de video. Este avance aborda los desafíos en los sistemas de percepción que luchan con materiales transparentes debido a la refracción y reflexión.
Para respaldar esto, los investigadores crearon TransPhy3D, un conjunto de datos de video sintético con 11,000 secuencias renderizadas utilizando Blender/Cycles, que presenta activos estáticos y procedimentales como vidrio y plástico. El conjunto de datos fue producido utilizando trazado de rayos basado en la física y denoising OptiX para generar imágenes RGB junto con mapas de profundidad y normales para entrenar DKT.
El modelo DKT emplea un enfoque de traducción de video a video, utilizando adaptadores LoRA ligeros para mejorar el rendimiento. Al entrenar tanto en el conjunto de datos TransPhy3D como en conjuntos de datos sintéticos existentes, DKT aprende a concatenar latentes de profundidad RGB y ruidosos dentro del backbone DiT, lo que permite predicciones temporalmente consistentes a lo largo de los videos.
En las pruebas, DKT logró resultados de vanguardia en escenarios de cero disparos en varios benchmarks que involucran objetos transparentes, incluidos ClearPose y TransPhy3D-Test. El modelo demostró una mayor precisión y consistencia temporal en comparación con métodos establecidos, estableciendo nuevos récords en la estimación de normales de video en ClearPose.
El compacto modelo DKT opera a aproximadamente 0.17 segundos por cuadro, mostrando promesas para aplicaciones prácticas. Integrado en un sistema de agarre, DKT mejora las tasas de éxito para manipular superficies translúcidas y reflectantes, superando a los modelos previos de estimación de profundidad.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2512.23705v1
Todos los derechos y créditos pertenecen al editor original.