Wenig strukturierte Daten: neue Techniken für die Datenintegration
Die Integration grosser Datenmengen ist heute kostspielig und mühsam, da sich diese Aufgabe nur sehr schwer automatisieren lässt. Ziel dieses Projekts war, neue Techniken für eine effiziente, automatische Integration grosser Datenvolumen zu entwickeln, die beispielsweise aus dem Internet oder den sozialen Medien stammen können.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Das Projekt bestand aus zwei Teilen. Im ersten Schritt wurden neue Techniken zur Datenextraktion entwickelt und getestet, die es ermöglichen, die verfügbaren Daten automatisch zu kennzeichnen, die zwischen ihnen bestehenden Beziehungen zu erkennen und die Verteilung ihrer Werte zu modellieren. Diese Informationen wurden dann in einem zweiten Schritt zur Analyse und zur Integration der verfügbaren Daten genutzt. Die neuen Techniken mussten so ausgelegt sein, dass sie die Erstellung individueller Datenschemata unterstützen und Datenbank-Abstraktionsschichten liefern können. Letztlich hat das Projekt Verfahren bereitgestellt, mit deren Hilfe sich Datensätze einfach und ohne Verlust der individuellen Merkmale und Geschichte kombinieren lassen.
Hintergrund
Einer der wichtigsten Vorteile von «Big Data» liegt in der Kombination mehrerer Datenquellen, um ein bestimmtes Phänomen modellieren zu können. Die meisten der heute angewendeten Verfahren beruhen auf einer Analyse des Datenschemas, und hier insbesondere der Metadaten, welche die Struktur der zu integrierenden Daten eindeutig bestimmen. In der Praxis sind diese Schemata allerdings oft unvollständig, so etwa bei Daten aus sozialen Netzwerken oder dem Internet. Da diese heute noch nicht automatisch kombiniert werden können, bleibt den Spezialisten nur die manuelle Aufbereitung und Integration. Der hieraus resultierende Zeitverlust ist eines der Hauptprobleme bei der Nutzung von Big Data.
Ziele
Ziel dieses Projekts war die Entwicklung neuer Techniken für eine automatisierte oder halb automatisierte Datenintegration. Da die Struktur der Daten im Voraus oft nicht bekannt ist, bestand die zentrale Herausforderung des Forschungsprojekts darin, diese Struktur im Nachhinein zu ermitteln, indem ausgehend von den verfügbaren Daten ein Datenschema rekonstruiert wurde.
Bedeutung / Anwendung
Aufgrund des Missverhältnisses zwischen der unaufhörlich wachsenden Menge an verfügbaren Daten und der begrenzten Zeit, die für ihre Verarbeitung zur Verfügung steht, kommt diesem Projekt eine ganz besondere Bedeutung zu. Die Ergebnisse tragen dazu bei, dass sich der Prozess der Aufbereitung von Rohdaten für die Modellierung und Visualisierung wesentlich beschleunigen wird. Davon dürften viele Bereiche profitieren, in denen leistungsfähigere Analysen und Modelle die Zusammenführung heterogener Datensätze voraussetzen (Smart Cities, personalisierte Medizin oder e-Science).
Resultate
Das Projekt führte zu einer Reihe neuartiger Integrationsalgorithmen der nächsten Generation sowie zu mehreren Einsätzen mit echten Daten. Insbesondere wurden neue Techniken zur Integration und Abfrage von Microposts [TKDE2021] sowie – zu deren Analyse – neue Human-in-the-Loop-Methoden entwickelt [AAAI2020]. Auch bei der Verbesserung der Graphen-Integration und Analyse wurden bedeutende Fortschritte erzielt; neue Einbettungstechniken in diesem Zusammenhang, die um ein bis zwei Grössenordnungen schneller sind als bisherige Ansätze [KDD2019], sowie neue Imputationstechniken zur Verbesserung der Qualität von Wissensgraphen, die für die Datenintegration verwendet werden [WWW2021], sind ebenfalls Ergebnisse dieses Projekts. Es wurden Ansätze für zwei reale Anwendungsfälle entwickelt: einen für die Analyse und Integration von PDF-Dateien für das Schweizerische Bundesarchiv und einen zweiten für die Integration lose strukturierter Daten für die Krebsdiagnose [BigData2020].
Originaltitel
Tighten-it-All: Big Data Integration for Loosely-Structured Data