
Diffusion-Technologie für die Schätzung von Tiefe und Normale transparenter Objekte nutzen
Forscher haben TransPhy3D entwickelt, einen synthetischen Videodatensatz mit 11.000 Sequenzen, die transparente und reflektierende Szenen mithilfe von Blender/Cycles zeigen. Dieser Datensatz unterstützt das Training von DKT, einem Video-zu-Video-Übersetzer, der die Tiefen- und Normalestimation für transparente Objekte verbessert. DKT erzielt Spitzenleistungen bei Benchmarks wie ClearPose und steigert die Erfolgsquoten beim Greifen auf komplexen Oberflächen. Dies zeigt das Potenzial der Wiederverwendung von Diffusionsmodellen für fortgeschrittene Wahrnehmungsaufgaben in der Robotik.










