Диффузия и прозрачность: использование видео-диффузии для оценки глубины и нормалей прозрачных объектов

Изображение создано Gemini AI
Исследователи разработали TransPhy3D — синтетический видеодатасет, состоящий из 11,000 последовательностей, демонстрирующих прозрачные и отражающие сцены, созданные с помощью Blender/Cycles. Этот датасет помогает в обучении DKT, переводчика видео в видео, который улучшает оценку глубины и нормалей для прозрачных объектов. DKT демонстрирует выдающиеся результаты на таких бенчмарках, как ClearPose, и повышает вероятность успешного захвата объектов на сложных поверхностях, что подчеркивает потенциал повторного использования диффузионных моделей для решения сложных задач восприятия в робототехнике.
Достижения в оценке глубины для прозрачных объектов с использованием видео-диффузии
Исследовательская группа разработала новую модель DKT, которая улучшает оценку глубины и нормалей для прозрачных объектов с использованием современных технологий видео-диффузии. Это достижение решает проблемы восприятия, с которыми сталкиваются системы, испытывающие трудности с прозрачными материалами из-за преломления и отражения.
Для поддержки этого исследования ученые создали TransPhy3D, синтетический видеодатасет с 11 000 последовательностей, рендеренных с помощью Blender/Cycles, содержащий статические и процедурные объекты, такие как стекло и пластик. Датасет был произведен с использованием физически обоснованного трассирования лучей и денойзинга OptiX для генерации RGB-изображений, а также карт глубины и нормалей для обучения DKT.
Модель DKT использует подход видео-видео трансляции, применяя легкие адаптеры LoRA для повышения производительности. Обучаясь как на датасете TransPhy3D, так и на существующих синтетических датасетах, DKT учится конкатенировать RGB и зашумленные латенты глубины в структуре DiT, что позволяет получать временно согласованные предсказания в видео.
В ходе тестирования DKT достигла передовых результатов в сценариях нулевого выстрела на нескольких бенчмарках, связанных с прозрачными объектами, включая ClearPose и TransPhy3D-Test. Модель продемонстрировала улучшенную точность и временную согласованность по сравнению с устоявшимися методами, установив новые рекорды в оценке нормалей видео на ClearPose.
Компактная модель DKT работает примерно за 0,17 секунды на кадр, что демонстрирует её потенциал для практического применения. Интегрированная в систему захвата, DKT повышает уровень успешности манипуляций с полупрозрачными и отражающими поверхностями, превосходя предыдущие модели оценки глубины.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2512.23705v1
Все права и авторство принадлежат первоначальному издателю.