
Диффузия и прозрачность: использование видео-диффузии для оценки глубины и нормалей прозрачных объектов
Исследователи разработали TransPhy3D — синтетический видеодатасет, состоящий из 11,000 последовательностей, демонстрирующих прозрачные и отражающие сцены, созданные с помощью Blender/Cycles. Этот датасет помогает в обучении DKT, переводчика видео в видео, который улучшает оценку глубины и нормалей для прозрачных объектов. DKT демонстрирует выдающиеся результаты на таких бенчмарках, как ClearPose, и повышает вероятность успешного захвата объектов на сложных поверхностях, что подчеркивает потенциал повторного использования диффузионных моделей для решения сложных задач восприятия в робототехнике.










