
A Difusão Conhece Transparência: Reaproveitamento da Difusão de Vídeo para Estimativa de Profundidade e Normais de Objetos Transparentes
Pesquisadores desenvolveram o TransPhy3D, um conjunto de dados sintético de vídeo composto por 11.000 sequências que mostram cenas transparentes e reflexivas, geradas com Blender/Cycles. Este conjunto de dados é fundamental para o treinamento do DKT, um tradutor de vídeo para vídeo que aprimora a estimativa de profundidade e normais para objetos transparentes. O DKT alcança desempenho de ponta em benchmarks como ClearPose e melhora as taxas de sucesso de apreensão em superfícies complexas, demonstrando o potencial da reutilização de modelos de difusão para tarefas avançadas de percepção em robótica.










