Direkt zum Inhalt

HoloVis - 3D Holistic Scene Understanding

Ziel des Projekts ist die ganzheitliche 3D-Szenenanalyse aus Bildern und Videos. Die Szenenanalyse umfasst viele Teilaufgaben, z.B. Szenenkennzeichnung, Objekterkennung und -verfolgung, Objektlogik und die Analyse des Objektverhaltens. Jede dieser Teilaufgaben erklärt einen Aspekt einer bestimmten Szene. Um eine Szene vollständig zu verstehen, müssen alle Aufgaben durchgeführt werden.

 

Beschreibung

Eines der gemeinsamen Ziele der Photogrammetrie und maschinellen Sehens (Computer Vision) ist, eine 3D-Szene in ihrer Gesamtheit zu erfassen. Damit verbunden ist die Fähigkeit, kontextsensitive Szeneninformationen aus Bildern oder Videos abzuleiten und untereinander zu korrelieren. Das Ziel des geplanten Projekts ist eine ganzheitliche Szenenanalyse aus Videodaten: 3D-Szenenanalyse beinhaltet mehrere Teilaufgaben wie z.B. (a) Szenen Kennzeichnung / Labeling, (b) Objekterkennung und- Verfolgung und (c) die Objekt (Mensch, Fahrzeug, etc.) Verhaltensanalyse. Jede dieser Teilaufgaben erklärt einen Aspekt/eine Skala einer zu analysierenden Szene, deren ganzheitlichen Erfassung einer gemeinsamen (z.B. iterativ) Optimierung aller diese Unter-Aufgaben es zu lösen bedarf. In realen Szenarien sind die Teilaufgaben (a)-(c) verkoppelt: Wenn zum Beispiel die 3D-Struktur einer Szene bekannt ist, so kann eine bessere Hypothese zur Lokalisation des Standortes eines Fahrzeugs aufbauen (z.B. sind Autos bevorzug auf Strassen anzutreffen). In diesem Forschungsvorhaben wird das Potenzial eines interagierenden Systems untersucht, welches aus einem Low-Level-Szenen Labeling Modell, einer Mid-Level-Objekt Erkennungs-Schicht und einer High-Level-Verhaltens-Analyse, eine kontextsensitive Szenenbeschreibung aufbaut. Dieses integrierte Modell hat den Vorteil der Interaktion von dynamischen Informationen mit statischen Informationen. Der Neuheitswert des Ansatzes lässt sich an drei Punkten fest machen: (1) Die drei Ebenen, die jeweils in einer eigenständigen Repräsentationsform gegeben sind, sollen reibungslos mit Hilfe einer statistischen Inferenz zwischen allen Ebenen interagieren, um eine konsistente dynamische Szene zu erfassen. (2) Die Detektion und das Lernen von Objekt-Dynamiken sowie deren Verhalten im Kontext anderer Objektklassen sollen für kontextsensitive Verhaltensmodelle anhand von Bildsequenzen untersucht werden. (3) Der Aufbau einer Szenen-Beschreibung erfordert eine intelligente Integration von bottom-up mit top-down Ansätzen, welches hier über statistische Inferenz ermöglicht wird. Es erlaubt demnach, Vorwissen auf unterschiedlichen Skalen zu erzeugen, zu integrieren und über mehrere Ebenen hinweg wirken zu lassen.

Team
Research area
Networks and Vision
Begin
End