
La difusión conoce la transparencia: reutilización de la difusión de video para la estimación de profundidad y normales de objetos transparentes
Investigadores han desarrollado TransPhy3D, un conjunto de datos sintético de video que cuenta con 11,000 secuencias que muestran escenas transparentes y reflectantes, utilizando Blender/Cycles. Este conjunto de datos es fundamental para entrenar DKT, un traductor de video a video que mejora la estimación de profundidad y normales para objetos transparentes. DKT logra un rendimiento de vanguardia en pruebas como ClearPose y aumenta las tasas de éxito de agarre en superficies complejas, lo que demuestra el potencial de reutilizar modelos de difusión para tareas avanzadas de percepción en robótica.










