“La société doit trouver un équilibre entre la protection des données et leur partage”

09.12.2015

La confidentialité des données exige un débat public et ouvert, souligne Christian S. Jensen, président du comité de direction du PNR 75 “Big Data”.

Comment expliquez-vous le buzz suscité par le Big Data dans les médias et le monde économique?

Il se situe à la jonction de deux développements. Premièrement, la quantité de données disponibles a explosé: selon une estimation, 90% des données actuelles ont été générées au cours des deux dernières années. Rien de semblable ne s’est jamais produit auparavant. Deuxièmement, nous n’avons jamais disposé d’équipements informatiques et d’infrastructures de communication aussi performants. De nouvelles possibilités de créer de la valeur à partir des données nous sont ainsi offertes, aussi bien au niveau économique que social. Le Big Data combine des questions technologiques fondamentales à un potentiel d’applications dans de nombreux domaines.

Quel rapport personnel avez-vous avec ce domaine?

J’appartiens à la communauté des chercheurs travaillant sur les systèmes de base de données et nous essayons depuis plusieurs décennies de repousser les frontières quant aux quantités de données que nous pouvons traiter. C’est excitant de voir autant de gens s’intéresser à ce domaine de recherche.

Dans quel domaine vous attendez-vous à voir voir le plus grand impact?

Il est toujours difficile de faire des pronostics. Mais vous pouvez regarder les secteurs où les données sont produites en masse: nos vies sociales numérisées, les achats réalisés en ligne et dans les magasins, les services gouvernementaux en ligne, de même que la production, la logistique, les banques, les assurances, les transports et la médecine.

Considérez-vous qu’il y a des domaines qui ne devraient pas être abordés par le Big Data?

Il est difficile de voir dans quels secteurs les données ne pourraient pas, en principe, être utilisées afin de créer de la valeur. Mais une application n’aura pas de succès si les personnes qui sont censées l’utiliser ne se sentent pas à l’aise avec elle. Nous devons veiller à ne pas imposer une technologie non désirée. Bien sûr, gérer la propriété des données et trouver des moyens sécurisés de les partager constituent l’un des défis importants à relever. Il faut reconnaître que les données ont une valeur et que, plus elles sont partagées, plus grande est la valeur qu’elles permettent de générer. Les questions cruciales qui se posent sont : Comment pouvons-nous établir des marchés de données ? Devrions-nous les protéger de la même façon qu’un brevet protège la propriété intellectuelle ? La société doit trouver un équilibre entre partage et protection.

La question de la confidentialité préoccupe énormément les citoyens. Le Big Data pourrait subir un retour de bâton si celle-ci devait être mise en danger. Les chercheurs sont-ils conscients de ce risque?

Je ne pense pas que le champ d’investigation du PNR 75 présente un risque élevé. Les applications étudiées sont peu susceptibles d’utiliser des données reliées à un grand nombre d’utilisateurs. Mais le risque est réel lorsque l’on traite de très importantes quantités de données. Nous avons besoin d’un débat citoyen et d’un public informé. Nous devons tirer parti de notre système démocratique et les médias doivent jouer leur rôle et remettre en question l’utilisation de cette technologie. C’est un point crucial.

En principe, les données devraient être anonymisées. Mais la procédure inverse – la désanonymisation – reste possible.

Oui, dans quelques cas très médiatisés, nous avons constaté que des scientifiques étaient en mesure de désanonymiser des données qui avaient précédemment été publiées. Ceci fonctionne en croisant ces données avec d’autres sources. Ce point pose clairement problème. Il s’agit de trouver un compromis entre l’accessibilité des données et la protection de leur confidentialité. Les données GPS fournies par une voiture pourraient se révéler d’un grand secours pour aider la gestion de la circulation, mais une utilisation abusive pourrait identifier un conducteur et dévoiler des informations sur son comportement… Nous devons imaginer le pire scénario pour être en mesure d’en discuter.

Après Snowden et l’affaire de la NSA, croyez-vous que le grand public soit toujours disposé à mettre ses données à disposition en échange d’un service amélioré ?

Je constate une tendance à accepter l’envahissement de notre vie privée, en particulier parmi les jeunes. J’en suis inquiet et nous devons instaurer un débat public. Idéalement, les gens devraient pouvoir contrôler leurs données, choisir s’ils souhaitent ou non les communiquer, savoir de quelle manière elles sont utilisées et, si désiré, les supprimer. Si des décisions sont prises sur la base de mes données, je veux être en mesure de vérifier si celles-ci sont correctes. Effacer nos données et notre présence numériques devrait être possible.

En tant que chercheur, vous sentez-vous responsable de la manière dont vos travaux sont utilisés?

Je m’occupe de technologie et non d’applications. La technologie que nous développons peut être utilisée et elle peut aussi donner lieu à des abus: c’est quelque chose que je ne peux pas contrôler. Les responsables politiques doivent fixer les règles.

La plupart des données sont la propriété d’entreprises privées et de l’Etat et non des scientifiques. Est-ce un problème ?

Oui, si l’on se place dans une perspective de recherche. Les données ont de la valeur et les entreprises ne les cèdent pas gratuitement. Vous devez les convaincre de collaborer avec vous.

Quels défis conceptuels et technologiques spécifiques attendent les chercheurs de Big Data ?

Cela dépend de chaque application. Mais le volume de données à traiter et la vitesse à laquelle il est généré constituent évidemment l’un des points auxquels tous les chercheurs doivent faire face. Un autre défi est de trouver le moyen d’extraire les informations requises de sources qui sont souvent hétérogènes et pas toujours exactes. On ne sait pas toujours s’il est possible de les combiner de manière sensée et leur véracité peut être très difficile à évaluer.

Les données sont de l’or, mais ne court-on pas le risque de trop leur faire confiance?

Quantifier un aspect de votre vie attire généralement votre attention sur celui-ci. Ceci peut vous permettre d’en faire plus, un peu comme une montre de fitness compte vos pas et vous incite à marcher davantage. Cependant, la conséquence en est que les autres aspects de votre vie qui ne sont pas quantifiés peuvent souffrir d’un déficit d’attention. Et les données qui sont difficiles à collecter peuvent se révéler aussi importantes que celles auxquelles vous avez facilement accès… Nous pouvons profiter d’études qui porteraient un regard critique sur les conséquences possibles d’une attitude centrée sur les données. Il est important d’adopter aussi ce type de perspective.

Les algorithmes d’apprentissage automatique peuvent être très efficaces pour analyser les données mais nous ne comprenons pas leurs résultats. Est-ce un problème ?

C’est un défi intéressant. Certains pensent qu’il est possible d’extraire des informations sans poser d’hypothèses, ce qui se produit parfois dans l’exploration des données. Il existe un débat quant aux avantages de procéder ainsi. Il est difficile de donner une réponse générale: en fin de compte, vous devez toujours examiner une application spécifique. Globalement, je reconnais toutefois qu’un résultat ne peut pas être utile si vous ne comprenez pas pourquoi et comment vous l’avez obtenu.

Comment évaluez-vous la position de la Suisse en termes de recherches et d’applications dans le domaine du Big Data ?

Elle est excellente dans les deux cas: la population a un haut niveau d’éducation et les infrastructures et l’environnement économique sont remarquables.

La population suisse a développé une forte défiance vis-à-vis de la collecte de données depuis le scandale de 1989, qui a révélé que le gouvernement conservait des dossiers secrets sur des citoyens.

Il est souhaitable d’avoir un débat sur la confidentialité. Mais celle-ci n’est pas forcément un problème dans certaines applications. Prenez par exemple la médecine personnalisée: elle est basée sur le fait que chaque patient est différent et qu’il pourrait bénéficier de médicaments sur mesure; ceci n’est pas toujours lié à des questions de vie privée. Ou prenons le Danemark où l’élevage porcin est très développé: en scannant les animaux abattus, ils pourraient être découpés par des machines, ce qui réduirait le travail répétitif et le coût de la procédure. Il n’y a pas ici de données sensibles.

Certains chercheurs ont reproché au PNR 75 de favoriser les sciences naturelles et de négliger les sciences sociales.

La moitié du comité de direction vient d’autres domaines que les sciences naturelles: il comprend un économiste, un expert en droit et un spécialiste des Digital Humanities. Il est important de couvrir de multiples perspectives dont celles apportées par les sciences naturelles, l’ingénierie, les applications et les sciences sociales. Afin de tirer le meilleur parti du Big Data, nous devons pouvoir exploiter les données ainsi qu’identifier et résoudre les problèmes potentiels qui les accompagnent. Il y a une différence dans le niveau de financement: les recherches qui portent sur la collecte et l’analyse de données requièrent souvent une main d’œuvre abondante et des infrastructures expérimentales, ce qui est généralement coûteux.

Vous êtes informaticien. Etes-vous à l’aise lorsqu’il s’agit d’évaluer des recherches en sciences sociales ?

Toutes les requêtes de recherche doivent être – et seront – évaluées par des pairs actifs dans le domaine de recherche concerné et dans le respect des standards en vigueur. L’appel à projets est défini de manière large et flexible et nous avons la possibilité de recruter plus d’évaluateurs dans un domaine générant de nombreuses propositions.

Christian S. Jensen

Christian S. Jensen est professeur au Département de sciences informatiques de l’université d’Aalborg au Danemark. Ses recherches portent sur la gestion des données spatio-temporelles, et incluent la modélisation, la conception des banques de données et l’indexation. Il avait précédemment travaillé à l’université danoise d’Aarhus ainsi que dans les universités de l’Arizona et du Maryland ainsi qu’au siège de Google à Mountain View en Californie. Il préside le comité de direction du PNR 75 “Big Data”.