A Difusão Conhece Transparência: Reaproveitamento da Difusão de Vídeo para Estimativa de Profundidade e Normais de Objetos Transparentes

Imagem gerada por Gemini AI
Pesquisadores desenvolveram o TransPhy3D, um conjunto de dados sintético de vídeo composto por 11.000 sequências que mostram cenas transparentes e reflexivas, geradas com Blender/Cycles. Este conjunto de dados é fundamental para o treinamento do DKT, um tradutor de vídeo para vídeo que aprimora a estimativa de profundidade e normais para objetos transparentes. O DKT alcança desempenho de ponta em benchmarks como ClearPose e melhora as taxas de sucesso de apreensão em superfícies complexas, demonstrando o potencial da reutilização de modelos de difusão para tarefas avançadas de percepção em robótica.
Avanços na Estimativa de Profundidade para Objetos Transparentes Usando Difusão de Vídeo
Uma equipe de pesquisa desenvolveu um novo modelo, DKT, que aprimora a estimativa de profundidade e normais para objetos transparentes utilizando técnicas modernas de difusão de vídeo. Este avanço aborda os desafios enfrentados por sistemas de percepção que têm dificuldades com materiais transparentes devido à refração e reflexão.
Para apoiar isso, os pesquisadores criaram o TransPhy3D, um conjunto de dados de vídeo sintético com 11.000 sequências renderizadas usando Blender/Cycles, apresentando ativos estáticos e procedurais como vidro e plástico. O conjunto de dados foi produzido utilizando traçado de raios baseado em física e desruído OptiX para gerar imagens RGB juntamente com mapas de profundidade e normais para o treinamento do DKT.
O modelo DKT emprega uma abordagem de tradução de vídeo para vídeo, utilizando adaptadores leves LoRA para desempenho aprimorado. Ao treinar tanto no conjunto de dados TransPhy3D quanto em conjuntos de dados sintéticos existentes, o DKT aprende a concatenar latentes RGB e de profundidade ruidosa dentro da estrutura DiT, permitindo previsões temporalmente consistentes em vídeos.
Nos testes, o DKT alcançou resultados de ponta em cenários de zero-shot em vários benchmarks envolvendo objetos transparentes, incluindo ClearPose e TransPhy3D-Test. O modelo demonstrou maior precisão e consistência temporal em comparação com métodos estabelecidos, estabelecendo novos recordes na estimativa de normais de vídeo no ClearPose.
O compacto modelo DKT opera a aproximadamente 0,17 segundos por quadro, mostrando promessa para aplicações práticas. Integrado em um sistema de preensão, o DKT aumenta as taxas de sucesso para manipulação de superfícies translúcidas e reflexivas, superando modelos anteriores de estimativa de profundidade.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2512.23705v1
Todos os direitos e créditos pertencem ao editor original.