Hochwassererkennung: automatisches Geotagging von Crowdsourced-Videos
Wenn aussergewöhnliche Ereignisse eintreten, wie eine Überschwemmung nach Starkregen, zeichnen viele das Ereignis mit Smartphones auf. Solche Augenzeugen-Videos können interessante Informationen für die Ereignisbewältigung enthalten. Das Projekt hatte zum Ziel, relevante Videos zu identifizieren und deren Inhalte für das Krisenmanagement aufzubereiten.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Menschen entscheiden schnell und effizient, ob Videos relevante Informationen enthalten oder nicht. In einer Krisensituation fehlt jedoch die Zeit, um sich stundenlang Videoaufzeichnungen anzusehen. Daher entwickelte das Projekt Methoden der künstlichen Intelligenz, um die Videos zu beurteilen und zu filtern. Ausgewählte Videos wurden dann mit bekannten Daten und Bildern einer Region verglichen und so korrekt positioniert und ausgerichtet. Abhängig von den Inhalten und den Einstellungen produzierten diese Schritte mehr oder weniger viele Falschauswahlen. Dementsprechend wurden die Informationen visuell so aufbereitet, dass die Inhalte der Videos räumlich und thematisch mit anderen relevanten Datensätzen in Beziehung gesetzt werden können und somit potenziell für das Krisenmanagement nutzbar sind.
Hintergrund
Online-Plattformen können Videoaufnahmen von einer Vielzahl unterschiedlicher Vorfälle sammeln und bereitstellen. Die Identifizierung und Übermittlung relevanter Inhalte für ausgewählte Zwecke ist jedoch ein ungelöstes Problem. Methoden, die Augenzeugenvideos automatisch bewerten und verarbeiten, sollen die Nutzung solcher Informationen erleichtern.
Ziele
Ziel war es, Methoden und Algorithmen zu entwickeln und zu erproben, um Informationen aus Augenzeugenvideos zur Unterstützung verschiedener Anwendungen, z. B. für das Krisenmanagement, auszuwählen und aufzubereiten. Eine Herausforderung bestand darin, die Videos bezüglich ihrer Relevanz beurteilen, sie inhaltlich zu analysieren und sie geografisch richtig zu positionieren und auszurichten.
Die Entwicklung einer geeigneten visuellen Aufbereitung stellt sicher, dass die Resultate effizient und nutzbringend in die Arbeitsabläufe integriert werden können.Bedeutung / Anwendung
Die Verfügbarkeit von aktuellen relevanten Informationen ist zentral. Zum Beispiel kann das Krisenmanagement darauf zurückgreifen, um schnell die richtigen Entscheidungen zu treffen und Entscheidungen mit negativen und kostspieligen Folgen zu vermeiden. Die Entwicklung von Algorithmen zur Informationsinterpretation, die Verbesserung der präzisen Georeferenzierung von Informationen und die geeignete visuelle Kommunikation der Ergebnisse sind Methoden, die in allen Anwendungsbereichen gefragt sind, in denen (räumliche) Informationen aus verschiedenen Quellen integriert werden müssen.
Resultat
In Interviews mit Fachleuten wurden zuerst das Krisenmanagement und die detaillierten Forschungsfragen erläutert. Hinsichtlich der Relevanz konnte gezeigt werden, dass zuverlässig lokalisierte Videoinhalte potenziell relevant sind und dass die Kontextualisierung von Videos mit anderen kartierten Bereichsdaten von Vorteil ist.
Algorithmen zur Videoklassifizierung werden meist auf Datensätzen mit Labels trainiert. Um sie robuster gegenüber ungesehenen Videos zu machen, wurden Algorithmen entwickelt und getestet, die unbeaufsichtigtes Lernen von intuitiver Physik und Vernunft über objektzentrierte Dekomposition unter Verwendung von unmarkierten Videos durchführen. Im Gegensatz zu früheren Ansätzen lernen diese Methoden auf unüberwachte Weise direkt von visuellen Rohbildern, um Objekte, Teile und ihre Beziehungen zu entdecken. Sie unterscheiden explizit mehrere Abstraktionsebenen und sind besser als andere Modelle bei der Modellierung synthetischer und realer Videos menschlicher Handlungen (Stanić et al. 2019, Stanić et al. 2021).
Um Videoinhalte genauer zu lokalisieren, wurden Teilbereiche der visuellen Lokalisierungspipeline untersucht. Die Feinlokalisierung wurde mit einer Bildposenschätzung verbessert, die auf einem Structure-from-Motion-Ansatz basiert, der sich auf approximatives Positionswissen und Referenzbilder stützt (Rettenmund et al. 2018). Tests mit verschiedenen Videos zeigten, dass die Qualität der Pose-Schätzung von den Unterschieden in den Blickwinkeln und den Veränderungen des Aussehens der Umgebung beeinflusst wird. Die Verarbeitungspipeline wurde daraufhin angepasst und erweitert (Meyer et al. 2020), um die Robustheit gegenüber Veränderungen in der Umgebung zu verbessern. Änderungen des Blickwinkels bleiben eine Herausforderung.
Um Videobilder mit anderen Daten zu kontextualisieren und die multigranulare Natur der Ereignisse zu berücksichtigen, wurden Visualisierungen und Interaktionen entwickelt, die eine visuelle Integration von räumlichen Daten ermöglichen, die relevante Informationen auf mehreren Massstabsebenen enthalten (Hollenstein & Bleisch 2021). Darüber hinaus wurde eine multiperspektivische Schnittstelle zur mentalen Verknüpfung von Bildern auf Strassenebene und kartierten Daten entworfen und getestet (Hollenstein & Bleisch 2022).
Originaltitel
EVAC – Employing Video Analytics for Crisis Management