Données peu structurées: nouveaux outils d’intégration
L’intégration des mégadonnées représente actuellement une tâche coûteuse et fastidieuse, car son automatisation se révèle très difficile. Ce projet visait à développer de nouvelles techniques pour intégrer de manière efficace et automatique les mégadonnées issues du Web ou des réseaux sociaux, par exemple.
Portrait / description du projet (projet de recherche terminé)
Ce projet comportait deux parties. La première était consistée à développer puis tester de nouvelles techniques d’extraction d’information afin de caractériser de manière automatique les données disponibles, de comprendre les relations entre elles et de modéliser la distribution de leurs valeurs. Dans un deuxième temps, ces informations étaient utilisées pour faciliter l’analyse et l’intégration des données disponibles. Il était nécessaire de développer de nouvelles techniques capables de créer des schémas de données à la demande et de fournir des couches d’abstraction. L’objectif final était d’offrir des procédés permettant de combiner de manière aisée les jeux de données tout en préservant leurs particularités et leur historique.
Contexte
Une des clés de voûte du "Big Data" consiste à combiner plusieurs sources d’information pour modéliser un phénomène particulier. La plupart des méthodes actuelles se basent sur l’analyse du schéma des données et notamment sur les métadonnées qui définissent de manière univoque la structure des informations à combiner. Néanmoins, ces schémas s’avèrent souvent incomplets en pratique, par exemple pour les données provenant de réseaux sociaux ou du Web. Vu qu’il est pour l’instant impossible de les combiner de manière automatique, les spécialistes n’ont d’autre choix que de les préparer et de les intégrer manuellement. La perte de temps qui en résulte constitue l’un des problèmes majeurs du Big Data.
Objectif
Ce projet avait pour but la mise au point de nouvelles techniques d’intégration automatique ou semi-automatique de données. Leur structure n’étant souvent pas définie a priori, l’enjeu central des recherches était de la comprendre a posteriori, en reconstruisant un schéma de données à partir des données disponibles.
Importance / Application
Ce projet revêt une importance toute particulière de par la disproportion entre le volume toujours croissant des données disponibles et le temps limité à disposition des analystes pour les traiter. Les résultats de ce projet contribueront à accélérer de manière substantielle le processus menant des données brutes aux modélisations et visualisations. De nombreux domaines nécessitant de combiner des jeux de données hétérogènes (tels que les smart cities, la médecine personnalisée ou encore l'e-science) sont susceptibles d'en bénéficier pour lesquels combiner plusieurs jeux de données, avec comme résultat des analyses et des modèles plus puissants.
Résultats
Le projet a donné lieu à un certain nombre de nouveaux algorithmes d'intégration de nouvelle génération, ainsi qu'à plusieurs déploiements sur des données réelles. En particulier, de nouvelles techniques ont été développées pour intégrer et interroger les micropostes [TKDE2021], ainsi que de nouvelles méthodes humaines en boucle pour les analyser [AAAI2020]. Des progrès significatifs ont également été réalisés en termes d'amélioration de l'intégration et de l'analyse des graphes ; de nouvelles techniques d'intégration dans ce contexte, plus rapides d'un à deux ordres de grandeur que les approches précédentes [KDD2019], ainsi que de nouvelles techniques d'imputation pour améliorer la qualité des graphes de connaissances utilisés pour l'intégration des données [WWW2021] ont également résulté de ce projet. Des approches pour deux cas d'utilisation réels ont été développées : l'une pour analyser et intégrer des fichiers PDF pour les Archives fédérales suisses, et l'autre pour intégrer des données peu structurées pour le diagnostic du cancer [BigData2020].
Titre original
Tighten-it-All: Big Data Integration for Loosely-Structured Data