La diffusion connaît la transparence : réutilisation de la diffusion vidéo pour l'estimation de la profondeur et des normales des objets transparents

Image générée par Gemini AI
Des chercheurs ont développé TransPhy3D, un ensemble de données vidéo synthétiques composé de 11 000 séquences mettant en valeur des scènes transparentes et réfléchissantes, créé à l'aide de Blender/Cycles. Cet ensemble de données est essentiel pour l'entraînement de DKT, un traducteur vidéo-à-vidéo qui améliore l'estimation de la profondeur et des normales pour les objets transparents. DKT atteint des performances de pointe sur des références telles que ClearPose et augmente les taux de succès de préhension sur des surfaces complexes, démontrant ainsi le potentiel de la réutilisation des modèles de diffusion pour des tâches de perception avancées en robotique.
Avancées dans l'estimation de profondeur pour objets transparents utilisant la diffusion vidéo
Une équipe de recherche a développé un nouveau modèle, DKT, qui améliore l'estimation de profondeur et des normales pour les objets transparents en utilisant des techniques modernes de diffusion vidéo. Cette avancée répond aux défis des systèmes de perception qui ont du mal avec les matériaux transparents en raison de la réfraction et de la réflexion.
Pour soutenir cela, les chercheurs ont créé TransPhy3D, un ensemble de données vidéo synthétique comprenant 11 000 séquences rendues à l'aide de Blender/Cycles, mettant en avant des éléments statiques et procéduraux tels que le verre et le plastique. L'ensemble de données a été produit en utilisant le ray tracing basé sur la physique et le débruitage OptiX pour générer des images RGB ainsi que des cartes de profondeur et de normales pour entraîner DKT.
Le modèle DKT utilise une approche de traduction vidéo-à-vidéo, en s'appuyant sur des adaptateurs LoRA légers pour améliorer les performances. En s'entraînant à la fois sur l'ensemble de données TransPhy3D et sur des ensembles de données synthétiques existants, DKT apprend à concaténer les latents RGB et de profondeur bruitée au sein de l'architecture DiT, permettant des prévisions temporellement cohérentes à travers les vidéos.
Lors des tests, DKT a obtenu des résultats à la pointe de la technologie dans des scénarios zéro-shot sur plusieurs benchmarks impliquant des objets transparents, y compris ClearPose et TransPhy3D-Test. Le modèle a montré une précision améliorée et une cohérence temporelle par rapport aux méthodes établies, établissant de nouveaux records dans l'estimation des normales vidéo sur ClearPose.
Le modèle DKT compact fonctionne à environ 0,17 secondes par image, montrant un potentiel pour des applications pratiques. Intégré dans un système de préhension, DKT améliore les taux de réussite pour manipuler des surfaces translucides et réfléchissantes, surpassant les modèles d'estimation de profondeur précédents.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2512.23705v1
Tous les droits et crédits appartiennent à l'éditeur original.