Direkt zum Inhalt

Tiefenschätzung in Bildern und Videos ist eine wichtige Aufgabe der Bildverarbeitung und ist notwendig für Anwendungen wie Robotik und autonomes Fahrens. Während die Tiefenschätzung von statischen Szenen mit mehreren Kameras als weitesgehend gelöst gilt, ist das Schätzen von Tiefe aus einem einzelnen Bild weiterhin eine große Herausforderung. Das erste Ziel dieses Kooperationsprojekts besteht darin, monokulare Tiefenkritierien des menschlichen Wahrnehmungsprozess zu modellieren. Des Weiteren soll auch die Nutzbarkeit von relativen statt absoluten Tiefenkriterien eruiert werden.

 

Im Kooperationsprojekt MonoTo3D zwischen dem L3S / der TIB und der Universität Paderborn sollen neue Methoden zur Tiefenschätzung in monokularen Bildern entwickelt werden. Ein großer Teil aktueller Verfahren setzt zur Lösung dieses Problem auf künstliche neuronale Netze. Für das Training verwenden diese Methoden häufig Datensätze, die mit Hilfe von Lasersystemtechnologien wie zum Bespiel LIDAR oder der Kinect Kamera aufgenommen wurden.

 

Dies ist in vielfacher Hinsicht problematisch: Zunächst ist das Erstellen von Trainingsdaten auf diese Weise sehr kostspielig. Dazu kommt, dass die generierten Daten oft sehr ungenau und in einigen Fällen auch fehlerbehaftet sind. Weiterhin versuchen herkömmliche Ansätze häufig, den absoluten Abstand zwischen Kamera und Szene zu schätzen, doch übersteigt das oft den Informationsgehalt monokularer Bilder.

 

Aus diesen Gründen soll in diesem Projekt eine andere Herangehensweise genutzt werden. Zunächst sollen Tiefenkriterien des menschlichen Wahrnehmungsprozesses modelliert und zur Tiefenschätzung hinzugezogen werden. Dazu gehören zum Beispiel Kriterien wie lineare Perspektive, relative Größenunterschiede, Verdeckung, und Ähnliche. Des Weiteren soll die Tiefenschätzung nicht als Regressionsproblem betrachtet werden, in dem die absolute Tiefe jedes Pixels bestimmt wird, sondern als relatives Rankingproblem, in dem für zwei Bildregionen die ordinale Beziehung („liegt näher dran“, „ist weiter entfernt“) geschätzt wird. Dies birgt mehrere Vorteile: Zum einen verringert dieses Vorgehen die Komplexität um ein Vielfaches, da nur relative ordinale Beziehungen geschätzt werden, was in der Praxis häufig ausreicht. Weiterhin ist es wesentlich einfacher, geeignete Trainingsdaten zu generieren, da Menschen hervorragend dazu in der Lage sind, relative Tiefeninformationen innerhalb eines Bildes abzuschätzen.

Begin
End