扩散技术实现透明物体的深度和法线估计

Gemini AI生成的图像
研究人员开发了TransPhy3D,这是一个包含11,000个合成视频序列的数据集,展示了使用Blender/Cycles制作的透明和反射场景。该数据集有助于训练DKT,这是一种视频到视频的转换器,能够提高透明物体的深度和法线估计。DKT在ClearPose等基准测试上表现出色,显著提高了在复杂表面上的抓取成功率,展示了将扩散模型再利用于机器人高级感知任务的潜力。
使用视频扩散技术对透明物体进行深度估计的进展
一个研究团队开发了一种新模型DKT,该模型利用现代视频扩散技术增强了对透明物体的深度和法线估计。这一进展解决了感知系统在处理透明材料时因折射和反射而面临的挑战。
为此,研究人员创建了TransPhy3D,一个合成视频数据集,包含11,000个序列,使用Blender/Cycles进行渲染,特征包括静态和程序生成的资产,如玻璃和塑料。该数据集采用物理基础的光线追踪和OptiX去噪技术生成RGB图像以及用于训练DKT的深度和法线图。
DKT模型采用视频到视频的转换方法,利用轻量级的LoRA适配器以提升性能。通过在TransPhy3D数据集和现有的合成数据集上进行训练,DKT学习在DiT主干网络内连接RGB和噪声深度潜变量,从而实现视频间的时间一致性预测。
在测试中,DKT在涉及透明物体的多个基准测试(包括ClearPose和TransPhy3D-Test)中,在零-shot场景下取得了最先进的结果。与现有方法相比,该模型在准确性和时间一致性方面表现出色,在ClearPose上创造了视频法线估计的新记录。
紧凑型DKT模型的每帧处理时间约为0.17秒,显示出在实际应用中的潜力。集成到抓取系统中,DKT提高了操控半透明和反射表面的成功率,超越了之前的深度估计模型。
相关主题:
📰 原始来源: https://arxiv.org/abs/2512.23705v1
所有权利和署名均属于原出版商。