
La diffusion connaît la transparence : réutilisation de la diffusion vidéo pour l'estimation de la profondeur et des normales des objets transparents
Des chercheurs ont développé TransPhy3D, un ensemble de données vidéo synthétiques composé de 11 000 séquences mettant en valeur des scènes transparentes et réfléchissantes, créé à l'aide de Blender/Cycles. Cet ensemble de données est essentiel pour l'entraînement de DKT, un traducteur vidéo-à-vidéo qui améliore l'estimation de la profondeur et des normales pour les objets transparents. DKT atteint des performances de pointe sur des références telles que ClearPose et augmente les taux de succès de préhension sur des surfaces complexes, démontrant ainsi le potentiel de la réutilisation des modèles de diffusion pour des tâches de perception avancées en robotique.










