
La diffusione conosce la trasparenza: riutilizzo della diffusione video per la stima della profondità e delle normali di oggetti trasparenti
I ricercatori hanno sviluppato TransPhy3D, un dataset di video sintetici composto da 11.000 sequenze che mostrano scene trasparenti e riflettenti, realizzate con Blender/Cycles. Questo dataset è utile per l'addestramento di DKT, un traduttore video-to-video che migliora la stima della profondità e delle normali per oggetti trasparenti. DKT raggiunge prestazioni di eccellenza in benchmark come ClearPose e aumenta i tassi di successo nella presa su superfici complesse, dimostrando il potenziale di riutilizzare modelli di diffusione per compiti avanzati di percezione nella robotica.










