Analyse de flux: traitement rapide et préservation de la vie privée
La société produit des mégadonnées de manière continue et avec une rapidité sans précédent. Il est de ce fait irréaliste de vouloir former un nombre suffisant d’informaticiens pour les collecter et les analyser ces données. Il serait donc préférable de développer de nouveaux moyens d’analyse.
Portrait / description du projet (projet de recherche terminé)
Dans ce projet, un système de traitement était développé, à l’échelle du pétaoctet, respectant la confidentialité et destiné à du matériel informatique standard. Premièrement, un langage de programmation convivial basé sur des requêtes traditionnelles mais avec des extensions pour les opérations statistiques et la capacité nécessaire pour des opérations en temps réel était mis à disposition. Dans un deuxième temps, le langage permet aux utilisateurs de préciser le niveau souhaité de confidentialité. Troisièmement, le compilateur système a traduit en calculs exécutables les fonctions statistiques et les spécifications en matière de confidentialité. Enfin, l’environnement d’exécution a sélectionné la meilleure approche pour optimiser l’exécution en utilisant des systèmes existants (par ex. Apache Flink, Spark Streaming ou Storm).
Contexte
La production de Big Data va bientôt dépasser les capacités de stockage ainsi que celles des experts informatiques en mesure de les traiter. En outre, la question de la protection des données revient toujours davantage sur le tapis. Répondre à ces questions exige ce qu’on appelle des systèmes de traitement des flux, qui analysent en continu les données entrantes, au lieu de les stocker, et permettent aux scientifiques non-informaticiens d’affiner leur analyse tout en préservant la confidentialité. Ce projet pourrait fortement simplifier le développement de nouvelles applications basées sur des analyses de données en temps réel acceptables socialement.
Objectif
Un système d’analyse à l’échelle du pétaoctet (c.-à-d. traitant des millions de gigaoctets) était développé qui permettant à des scientifiques non-informaticiens une analyse à haute performance des flux de données. La solution facilite les opérations statistiques avancées en temps réel et assure la confidentialité des données. Pour évaluer la robustesse et la fonctionnalité de notre système, le système de traitement des données du radiotélescope «Australian Square Kilometre Array Pathfinder» était repoduit. Cela génére jusqu’à 2,5 gigaoctets par seconde de données brutes. Pour évaluer le respect de la confidentialité, les habitudes télévisuelles de quelque trois millions de personnes étaient analysé.
Importance / Application
L’omniprésence, dans notre société, de dispositifs électroniques et de capteurs provoque une avalanche de données. Les résultats de ce projet permettent aux scientifiques non-informaticiens de les analyser et d’explorer efficacement leurs sources en constante croissance, tout en respectant les lois sur la protection des données.
Résultats
Les principaux résultats du projet sont les suivants:
- de nouveaux algorithmes pour calculer la transformation de Fourier dans les environnements de streaming;
- une extension fonctionnelle des systèmes relationnels avec des opérations d'algèbre linéaire;
- la facilité de consultation des flux RDF dans le respect de la vie privée avec SihlMill.
Premièrement, de nouveaux algorithmes ont été développés pour pouvoir utiliser la transformation de Fourier afin de traiter des flux de données rapidement et dans des volumes importants. L'algorithme, dénommé Single Point Incremental Fourier Transform (SPIFT), utilise des facteurs Twiddle pour réduire la complexité du traitement d'une nouvelle observation dans le flux de données. SPIFT propose des décalages circulaires pour réduire la complexité d'un nombre quadratique à un nombre linéaire de multiplications. L'algorithme a également été développé pour traiter efficacement des piles d'observations avec MPIFT (Multi Point Incremental Fourier Transform).
Deuxièmement, des langages déclaratifs de haut niveau ont été développés avec des extensions fonctionnelles pour les opérations d'algèbre linéaire. Cela a permis notamment d’étendre intelligemment l'algèbre relationnelle ou le SQL à des opérations de l'algèbre linéaire, ainsi que de construire un système intégrant l'extension fonctionnelle au cœur de la mémoire organisée en colonnes MonetDB.
Troisièmement, SihlQL, un langage d'interrogation inspiré de SPARQL pour l'interrogation des flux de données RDF dans le respect de la protection des données, a été développé. L’idée de départ était de proposer un paramètre probabiliste facile à comprendre pour les systèmes basés sur la protection différentielle des données et de permettre aux spécialistes du domaine d’indiquer facilement le niveau souhaité de protection des données. Un compilateur a ensuite été développé à partir de SihlQL pour transformer les requêtes en workflows Apache Flink. Le système obtenu, SihlMill, est publié en tant que projet open source et implémente des algorithmes de l'état de la technique respectant la vie privée, ainsi que de nouveaux mécanismes qui étendent l’expressivité de SihlQL.
Titre original
Privacy Preserving, Peta-scale Stream Analytics for Domain-Experts