La diffusione conosce la trasparenza: riutilizzo della diffusione video per la stima della profondità e delle normali di oggetti trasparenti

Immagine generata da Gemini AI
I ricercatori hanno sviluppato TransPhy3D, un dataset di video sintetici composto da 11.000 sequenze che mostrano scene trasparenti e riflettenti, realizzate con Blender/Cycles. Questo dataset è utile per l'addestramento di DKT, un traduttore video-to-video che migliora la stima della profondità e delle normali per oggetti trasparenti. DKT raggiunge prestazioni di eccellenza in benchmark come ClearPose e aumenta i tassi di successo nella presa su superfici complesse, dimostrando il potenziale di riutilizzare modelli di diffusione per compiti avanzati di percezione nella robotica.
Progressi nella Stima della Profondità per Oggetti Trasparenti Utilizzando la Diffusione Video
Un team di ricerca ha sviluppato un nuovo modello, DKT, che migliora la stima della profondità e delle normali per oggetti trasparenti utilizzando tecniche moderne di diffusione video. Questo progresso affronta le sfide nei sistemi di percezione che incontrano difficoltà con materiali trasparenti a causa della rifrazione e della riflessione.
Per supportare questo, i ricercatori hanno creato TransPhy3D, un dataset video sintetico con 11.000 sequenze renderizzate utilizzando Blender/Cycles, caratterizzato da asset statici e procedurali come vetro e plastica. Il dataset è stato prodotto utilizzando il ray tracing basato sulla fisica e la denoising OptiX per generare immagini RGB insieme a mappe di profondità e normali per l'addestramento del DKT.
Il modello DKT impiega un approccio di traduzione video-a-video, utilizzando adattatori LoRA leggeri per migliorare le prestazioni. Addestrando sia sul dataset TransPhy3D che su dataset sintetici esistenti, DKT impara a concatenare latenti RGB e profondità rumorosa all'interno del backbone DiT, consentendo previsioni temporali coerenti attraverso i video.
Nei test, DKT ha raggiunto risultati all'avanguardia in scenari zero-shot su diversi benchmark che coinvolgono oggetti trasparenti, tra cui ClearPose e TransPhy3D-Test. Il modello ha dimostrato una maggiore accuratezza e coerenza temporale rispetto ai metodi consolidati, stabilendo nuovi record nella stima delle normali video su ClearPose.
Il compatto modello DKT opera a circa 0,17 secondi per fotogramma, mostrando potenzialità per applicazioni pratiche. Integrato in un sistema di presa, DKT migliora i tassi di successo per la manipolazione di superfici translucide e riflettenti, superando i modelli di stima della profondità precedenti.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2512.23705v1
Tutti i diritti e i crediti appartengono all'editore originale.