Détection d’inondation: géolocalisation automatique de vidéos crowdsourcées
Lorsque des événements extraordinaires se produisent, comme une inondation après de fortes pluies, il suffit d’un smartphone pour immortaliser l’événement. De tels témoignages oculaires peuvent contenir des informations intéressantes pour gérer l'événement. Ce projet avait donc pour objectif d’identifier les vidéos pertinentes et de traiter leur contenu à des fins de gestion des crises.
Portrait / description du projet (projet de recherche terminé)
Les personnes décident rapidement et efficacement du caractère pertinent ou non du contenu de vidéos. Mais, en situation de crise, le temps manque pour visionner des heures d'enregistrements vidéo. C’est pourquoi le projet a développé des méthodes basées sur l’intelligence artificielle afin d’évaluer et de filtrer ce type de témoignages oculaires. Une sélection de vidéos a été ensuite comparée à des données et des images connues d’une région afin d’être correctement positionnée et orientée. En fonction du contenu et des paramètres, ces étapes ont généré des erreurs de sélection plus ou moins nombreuses. C’est pourquoi les informations ont été traitées visuellement de façon à ce que le contenu des vidéos puisse être mis en relation, au niveau spatial et thématique, avec d'autres ensembles de données pertinents et qu’il soit potentiellement utilisable pour la gestion des crises.
Contexte
Les plateformes en ligne peuvent collecter et mettre à disposition les enregistrements vidéo d'une multitude d'incidents différents. Toutefois, l'identification et la transmission des contenus pertinents à des fins sélectionnées est un problème non résolu. Les méthodes qui évaluent et traitent automatiquement les vidéos de témoins oculaires devraient faciliter l'utilisation de ces informations.
Objectif
L'objectif était de développer et de tester des méthodes et des algorithmes permettant de sélectionner et de traiter des informations issues de vidéos de témoins oculaires afin de prendre en charge différentes applications, notamment la gestion des crises. L'un des défis consistait à évaluer la pertinence des vidéos, puis à les analyser en fonction de leur contenu et enfin à les positionner et les orienter correctement sur le plan géographique.
L’élaboration d’un traitement visuel approprié garantit la possibilité d’intégrer les résultats de façon efficace et profitable dans les processus opérationnel.Importance / Application
La disponibilité d'informations pertinentes et actualisées est essentielle. Par exemple, la gestion des crises peut s'y référer pour prendre rapidement les bonnes décisions et éviter des décisions aux conséquences négatives et coûteuses. Le développement d'algorithmes d'interprétation des informations, l'amélioration du géoréférencement précis des informations et la communication visuelle appropriée des résultats sont des méthodes requises dans tous les domaines d'application où des informations (spatiales) issues de différentes sources doivent être intégrées.
Résultats
Des entretiens avec des spécialistes ont d’abord permis d'expliquer la gestion des crises et les questions de recherche détaillées. S’agissant de la pertinence, il a été démontré que les contenus vidéo localisés de manière fiable sont potentiellement pertinents et que la contextualisation des vidéos avec d'autres données de zone cartographiées est avantageuse.
Généralement, les algorithmes de classification vidéo sont appris sur des ensembles de données contenant des étiquettes. Pour les rendre plus résistants aux vidéos non visionnées, des algorithmes ont été développés et testés afin d’effectuer un apprentissage non supervisé de la physique intuitive et de la raison au moyen d’une décomposition centrée sur l'objet en utilisant des vidéos non étiquetées. Contrairement aux approches précédentes, ces méthodes apprennent directement à partir d'images visuelles brutes, sans supervision, afin de découvrir des objets, des pièces et leurs relations. Elles distinguent explicitement plusieurs niveaux d'abstraction et sont plus performantes que d'autres modèles pour modéliser des vidéos synthétiques et réelles d'actions humaines (Stanić et al. 2019, Stanić et al. 2021).
Afin de localiser plus précisément les contenus vidéo, des sous-parties du pipeline de localisation visuelle ont été analysées. La localisation fine a été améliorée à l'aide d'une estimation de pose d'image basée sur une approche Structure from Motion, qui s'appuie sur des connaissances approximatives de la position et des images de référence (Rettenmund et al. 2018). Des tests effectués sur différentes vidéos ont démontré que la qualité de l'estimation de pose était influencée par les différences de perspective et les changements d'apparence de l'environnement. Le pipeline de traitement a ensuite été adapté et développé (Meyer et al. 2020) afin d'améliorer la résistance aux changements de l'environnement. Les changements de perspective, quant à eux, demeurent un défi.
Afin de contextualiser les images vidéo avec d'autres données et de prendre en considération la nature multigranulaire des événements, des visualisations et des interactions ont été développées pour permettre l'intégration visuelle de données spatiales qui contiennent des informations pertinentes à plusieurs échelles (Hollenstein & Bleisch 2021). De plus, une interface pluridimensionnelle a été conçue et testée pour relier mentalement les images au niveau des rues et les données cartographiées (Hollenstein & Bleisch 2022).
Titre original
EVAC – Employing Video Analytics for Crisis Management