Datenstromanalytik mit Tools zur schnellen und Datenschutzgerechten Verarbeitung
Wir alle produzieren unablässig Daten und dies in beispielloser Geschwindigkeit. Die Ausbildung einer ausreichenden Zahl von Informatikerinnen und Informatikern, die diese Daten sammeln und analysieren, wird somit zunehmend unrealistisch. Also müssen neue Wege gefunden werden, um Daten schon während ihrer Entstehung zu analysieren.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Für das in diesem Projekt entwickelte datenschutzgerechte Petabyte-Verarbeitungssystem wurde zunächst eine benutzerfreundliche Programmiersprache entwickelt, die auf herkömmlichen Abfragen basiert, aber für Statistik- und Echtzeit-Operationen erweitert wird. Die Anwenderinnen und Anwender sollten den gewünschten Datenschutzumfang definieren können. Der System-Compiler setzte anschliessend die Statistikfunktionen und die Datenschutzspezifikationen in ausführbare Berechnungen um. Schliesslich wurde mithilfe vorhandener Systeme (z. B. Apache Flink, Spark Streaming oder Storm) das beste Konzept zur Optimierung der Ausführung ausgewählt.
Hintergrund
Die Produktion von Big Data überschreitet schon bald die verfügbaren Speicherkapazitäten und die Zahl der IT-Fachpersonen, die mit diesen Daten umgehen können. Auch sorgt sich die Gesellschaft zunehmend um den Datenschutz. Zur Lösung dieser Probleme werden sogenannte Datenstrom-Verarbeitungssysteme benötigt, die laufend die eingehenden Daten analysieren (anstatt sie zu speichern) und auch von Nicht-Informatikerinnen und -Informatikern datenschutzgerecht bedient werden können. Dieses Projekt könnte die Entwicklung neuer, gesellschaftlich akzeptierter Anwendungen für die Echtzeit-Datenanalyse enorm vereinfachen.
Ziele
Ein System im Petabyte-Massstab (d. h. geeignet zur Verarbeitung von Millionen von Gigabytes) wurde entwickelt, mit dem auch Nicht-Informatikerinnen und -Informatiker Hochleistungsdatenströme analysieren können. Die Lösung unterstützt komplexe statistische Verfahren in Echtzeit und gewährleistet den Schutz der Daten. Um die Robustheit und Funktionalität des Systems beurteilen zu können, wurde die Verarbeitungskette des "Australian Square Kilometer Array Pathfinder"-Radioteleskops nachgebildet. Hier fallen bis zu 2,5 Gigabyte Rohdaten pro Sekunde an. Um die Datenschutzkapazität zu beurteilen, wurden die Fernsehgewohnheiten von rund drei Millionen Personen analysiert.
Bedeutung / Anwendung
Die allgegenwärtigen elektronischen Geräte und Sensoren überschwemmen uns geradezu mit Daten. Dieses Projekt versetzt Nicht-Informatikerinnen und -Informatiker in die Lage, die stetig wachsenden Datenvolumen zu analysieren und auszuwerten, ohne geltende Datenschutzgesetze zu verletzen.
Resultate
Die wichtigsten Ergebnisse des Projekts sind
- neue Algorithmen zur Berechnung der Fourier-Transformation in Streaming-Umgebungen,
- eine funktionale Erweiterung von relationalen Systemen mit linearen Algebra-Operationen,
- die einfach zu bedienende Abfrage von RDF-Streams unter Wahrung der Privatsphäre mit SihlMill.
Zunächst wurden neue Algorithmen entwickelt, die es ermöglichen, die Fourier-Transformation zur Verarbeitung von Datenströmen mit hoher Geschwindigkeit und grossem Volumen zu nutzen. Der Algorithmus, die Single Point Incremental Fourier Transform (SPIFT), nutzt Twiddle-Faktoren, um die Komplexität der Verarbeitung einer einzelnen neuen Beobachtung im Datenstrom zu reduzieren. SPIFT schlägt zirkuläre Verschiebungen vor, um die Komplexität von einer quadratischen auf eine lineare Anzahl von Multiplikationen zu reduzieren. Der Algorithmus wurde auch erweitert, um Stapel von Beobachtungen mit MPIFT (Multi Point Incremental Fourier Transform) effizient zu verarbeiten.
Zweitens wurden deklarative High-Level-Sprachen mit funktionalen Erweiterungen für lineare Algebra-Operationen weiterentwickelt. Insbesondere ist es gelungen, die relationale Algebra bzw. SQL auf elegante Weise um Operationen der linearen Algebra zu erweitern und ein System zu bauen, das die funktionale Erweiterung in den Kern des MonetDB-Spaltenspeichers integriert.
Drittens wurde SihlQL entwickelt, eine von SPARQL inspirierte Abfragesprache für die datenschutzgerechte Abfrage von RDF-Datenströmen. Der Ausgangspunkt war, einen leicht verständlichen probabilistischen Parameter für Systeme vorzuschlagen, die auf differentiellem Datenschutz beruhen und es Domänen-Fachleuten ermöglichen, das gewünschte Mass an Datenschutz einfach anzugeben. Ausgehend von SihlQL wurde dann ein Compiler entwickelt, um die Abfragen in Apache Flink-Workflows umzuwandeln. Das resultierende System, SihlMill, wird als Open-Source-Projekt veröffentlicht und implementiert datenschutzfreundliche Algorithmen aus dem Stand der Technik sowie neue Mechanismen, die die Ausdruckskraft von SihlQL erweitern.
Originaltitel
Privacy Preserving, Peta-scale Stream Analytics for Domain-Experts