Datenströme: Überwachung in Echtzeit
Die Arbeitsabläufe vieler Behörden und Unternehmen sind stark reglementiert. In der Praxis ist es oft schwierig festzustellen, ob gegebene Regeln tatsächlich eingehalten werden. Wir entwickelten Algorithmen, die automatisch die Einhaltung der Regeln überprüfen und mit grossen Datenmengen umgehen können.
Porträt / Projektbeschrieb (abgeschlossenes Forschungsprojekt)
Wir entwickelten und implementierten effiziente, parallelisierte Algorithmen, die Daten in einer dynamischen Umgebung auf die Einhaltung von Regeln prüfen können. Als Eingabe erhalten diese Algorithmen einen in Echtzeit ankommenden Datenstrom sowie die zu prüfenden Regeln. Die Regeln werden dabei in einer festgelegten Eingabesprache formuliert. Diese muss ihren Nutzern erlauben, zeitliche und inhaltliche Zusammenhänge zwischen unterschiedlichen Datenpunkten auf einfache und intuitive Weise auszudrücken. Bei Regelverstössen erfolgt eine kompakte Ausgabe der für den Verstoss verantwortlichen Daten.
Hintergrund
Regelkonformität oder Compliance ist eine wichtige Aufgabe, der Unternehmen ganze Abteilungen widmen. Diese Abteilungen müssen mitunter komplexe Abläufe anhand von Ereignisprotokollen oder Logdateien von beträchtlichem Umfang schnell und zuverlässig auf Einhaltung gegebener Regeln prüfen. Eine typische Regel für eine Bank könnte lauten: Kein Kunde darf mehr als 5000 Franken pro Woche abheben. Die Identifizierung einzelner Verstösse ist von grossem Wert.
Ziele
Wir entwickelten Algorithmen, die kontinuierlich ankommende Daten auf Regelverstösse überprüfen. Je komplexer die Regel, desto grösser ist die Herausforderung, sie auf enormen Datenmengen effizient zu prüfen. Die Ausdrucksstärke der Eingabesprache beeinflusst die mögliche Komplexität der Regeln und damit auch die Effizienz der Algorithmen. Wir strebten nach einer möglichst effizienten Regelüberprüfung für ausdrucksstarke und somit vielfältig einsetzbare Eingabesprachen.
Bedeutung / Anwendung
Das Problem der automatisierten Regelüberprüfung kann von zwei Seiten angegangen werden. Einerseits verbessert die theoretische Forschung die Ausdrucksstärke der Eingabesprache für Regeln und entwickelt Algorithmen für diese Sprachen. Die Skalierbarkeit dieser Algorithmen auf grosse Datenmengen wird jedoch oft vernachlässigt. Andererseits implementiert die praktische Forschung skalierbare Algorithmen zur parallelisierten Ausführung in Rechenclustern. Dabei kommt der Entwurf der Eingabesprache oft zu kurz. Unser Projekt vereint beide Ansätze zum beidseitigen Nutzen.
Resultate
Wir haben wesentliche Beiträge zu den Gesamtzielen des Projekts geleistet. Mit den Ergebnissen aus unserem Projekt erweiterten wir die Grenzen der Skalierbarkeit für ausdrucksstarke Kontrollen erster Ordnung, sodass sie in Big-Data-Umgebungen eingesetzt werden können. Darüber hinaus identifizierten wir alternative Arbeitsweisen, die zu einer noch nie dagewesenen Effizienz für Aussagekontrollen führen. All diese grundlegenden Verbesserungen werden von öffentlich verfügbaren Open-Source-Implementierungen begleitet, deren Effizienz und Skalierbarkeit in synthetischen und realistischen Fallstudien validiert werden. Darüber hinaus befassten wir uns mit den Fragen der Korrektheit von Überwachungsalgorithmen und der Verständlichkeit der Überwachungsausgabe und entwickelten Algorithmen für den Einsatz von Kontrollen in einer verteilten Umgebung, in der Ereignisse möglicherweise nicht in der richtigen Reihenfolge bei der Kontrolle ankommen.
Originaltitel
Big Data Monitoring