AI
KI-Nachrichten

Diffusion-Technologie für die Schätzung von Tiefe und Normale transparenter Objekte nutzen

Source:arXiv
Originalautor:Shaocong Xu et al.
Diffusion-Technologie für die Schätzung von Tiefe und Normale transparenter Objekte nutzen

Von Gemini AI generiertes Bild

Forscher haben TransPhy3D entwickelt, einen synthetischen Videodatensatz mit 11.000 Sequenzen, die transparente und reflektierende Szenen mithilfe von Blender/Cycles zeigen. Dieser Datensatz unterstützt das Training von DKT, einem Video-zu-Video-Übersetzer, der die Tiefen- und Normalestimation für transparente Objekte verbessert. DKT erzielt Spitzenleistungen bei Benchmarks wie ClearPose und steigert die Erfolgsquoten beim Greifen auf komplexen Oberflächen. Dies zeigt das Potenzial der Wiederverwendung von Diffusionsmodellen für fortgeschrittene Wahrnehmungsaufgaben in der Robotik.

Fortschritte in der Tiefenschätzung für transparente Objekte mittels Video-Diffusion

Ein Forschungsteam hat ein neues Modell, DKT, entwickelt, das die Tiefen- und Normalenschätzung für transparente Objekte mithilfe moderner Video-Diffusionstechniken verbessert. Dieser Fortschritt adressiert Herausforderungen in Wahrnehmungssystemen, die mit transparenten Materialien aufgrund von Brechung und Reflexion zu kämpfen haben.

Um dies zu unterstützen, haben die Forscher TransPhy3D entwickelt, einen synthetischen Videodatenbestand mit 11.000 Sequenzen, die mit Blender/Cycles gerendert wurden und statische sowie prozedurale Elemente wie Glas und Kunststoff enthalten. Der Datensatz wurde unter Verwendung von physikalisch basierter Raytracing-Technologie und OptiX-Rauschunterdrückung erstellt, um RGB-Bilder sowie Tiefen- und Normalenkarten zur Schulung von DKT zu generieren.

Das DKT-Modell verwendet einen Video-zu-Video-Übersetzungsansatz und nutzt leichte LoRA-Adapter für verbesserte Leistung. Durch das Training mit dem TransPhy3D-Datensatz und bestehenden synthetischen Datensätzen lernt DKT, RGB- und rauschende Tiefenlatente innerhalb des DiT-Rückgrats zu verketten, was temporär konsistente Vorhersagen über Videos hinweg ermöglicht.

In Tests erzielte DKT in Zero-Shot-Szenarien auf mehreren Benchmarks mit transparenten Objekten, darunter ClearPose und TransPhy3D-Test, Ergebnisse auf dem neuesten Stand der Technik. Das Modell zeigte im Vergleich zu etablierten Methoden verbesserte Genauigkeit und temporäre Konsistenz und stellte neue Rekorde in der Video-Normalenschätzung auf ClearPose auf.

Das kompakte DKT-Modell arbeitet bei etwa 0,17 Sekunden pro Frame und zeigt vielversprechende Perspektiven für praktische Anwendungen. In ein Greifsystem integriert, verbessert DKT die Erfolgsraten bei der Manipulation von durchsichtigen und reflektierenden Oberflächen und übertrifft frühere Modelle zur Tiefenschätzung.

Verwandte Themen:

Diffusion-TechnologieTransPhy3Dsynthetischer VideodatensatzDKTTiefen- und Normalestimation

📰 Originalquelle: https://arxiv.org/abs/2512.23705v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen