Même si leurs données ont été anonymisées, 83% des Américains peuvent être ré-identifiés à partir de leur genre, de leur date de naissance et de leur code postal, selon une nouvelle étude.

Les données sont devenues la clef de voûte de l’économie moderne. Essentielles pour les progrès médicaux comme la lutte contre le cancer, elles sont aussi utilisées dans le domaine du ciblage publicitaire. Mais assez souvent, surtout dans le secteur de la santé, les données sensibles sont anonymisées avant de pouvoir être partagées ou vendues. C’est ce qu’on appelle la dé-identification : on retire de la base de données les informations permettant d’identifier facilement une personne. Par exemple, les hôpitaux effacent les noms des patients, leurs adresses, leurs dates de naissance, et peuvent intégrer de fausses valeurs.

Mais toutes ces précautions pour protéger l’anonymat sont vaines, affirment des chercheurs de l’Université catholique de Louvain et de l’Imperial College de Londres, dans une étude publiée dans Nature le 23 juillet. Ils ne sont pas les premiers à exposer les failles de l’anonymisation des données, déjà mises en avant dans des études de l’Université de Princeton (2014), de Cornell (2017) ou encore dans une enquête du Guardian (2017). Mais cette fois-ci, les chercheurs ont évalué la probabilité exacte d’identifier une personne à partir d’un ensemble de données dites « anonymisées ». Ils ont pour cela développé un algorithme de machine learning, capable d'identifier quels critères peuvent rendre une personne unique dans un groupe donné.

L'algorithme expliqué par les chercheurs.
L'algorithme expliqué par les chercheurs.
Image : Université catholique de Louvain et Imperial College de Londres

Selon eux, 83% des Américains peuvent être ré-identifiés à partir des trois critères que sont le genre, la date de naissance et le code postal. Et ce chiffre monte à 99,98% à partir de 15 critères démographiques (âge, genre, lieu, métier, etc.). « Beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi eux, beaucoup moins sont également nés le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants et un chien », expliqueun des chercheurs dans un communiqué de presse. Or, de telles informations sont souvent demandées par les entreprises pour cibler leurs publicités.

Les chercheurs ont mis en ligne le code source de leur algorithme afin de pouvoir reproduire l’expérience. Leur site permet également de calculer, grâce à ce modèle, la probabilité pour un individu d’être identifié en fonction de sa date de naissance, de son genre et de son code postal.

L’impuissance du RGPD

Afin de mieux encadrer l’utilisation des données, l’Union européenne a adopté le Règlement général européen pour la protection des données (RGPD), entré en vigueur en France le 25 mai 2018. Une solution pourtant insuffisante, selon les chercheurs : « Une donnée anonymisée n’est plus considérée comme donnée personnelle et échappe aux régimes de protection des données comme le RGPD ». Avant d’ajouter : « Nos résultats remettent en question la comptabilité des standards d’anonymisation avec les lois de protection des données telles que le RGPD ».

L'entreprise Experian vend des bases de données contenant 248 attributs par personne

L’étude pointe également du doigt certaines pratiques du courtier en données Experian, qui achète et revend des données dans un but commercial. Même si l’entreprise met en vente des bases de données dites « anonymisées », celles-ci contiennent jusqu’à 248 caractéristiques par foyer, permettant donc d’identifier très facilement chaque individu. Selon les chercheurs, 120 millions d’Américains seraient concernés.

Vers plus de contrôle

Les chercheurs encouragent donc les législateurs à agir pour ne pas avoir à revivre des scandales comme celui ayant touché Facebook en 2018. À l'époque, l’entreprise Cambridge Analytica avait aspiré les données personnelles de 50 millions d’Américains sur le réseau social, et ainsi permis à Donald Trump de cibler ces profils dans le cadre de la dernière campagne présidentielle américaine.

Mais là où les données sont particulièrement sensibles, c’est dans le domaine de la santé, alors que plus de 26 millions de personnes ont déjà fait un test ADN en vente libre. Le secteur bancaire est également à risque, surtout depuis le lancement du Libra, la cryptomonnaie de Facebook, pour laquelle se pose la question de la délimitation entre données personnelles et données financières.

Un processus de ré-identification expliqué par les chercheurs.
Un processus de ré-identification expliqué par les chercheurs.
Image : Université catholique de Louvain et l’Imperial College de Londres

Des solutions alternatives existent, mais elles sont pour l'instant insuffisantes, rappelle le New York Times. Il est par exemple possible de contrôler l’accès aux données médicales sensibles, en interdisant la copie de celles-ci, ce qui constitue toutefois une barrière à la recherche scientifique. Un autre moyen pourrait être de crypter ces données, mais si le résultat final d'une étude scientifique cryptée s'avère faux, les chercheurs auront du mal à revenir à la source du problème.

Pour changer la législation, encore faut-il qu’il y ait une prise de conscience. Ce qui n’est pas exactement le cas, selon une étude de la société Norton Lifelock dont nous vous parlions en mars dernier. Si deux tiers des Français se disent préoccupés par la protection de leurs données personnelles, 59% seraient toutefois prêts à vendre ou à donner leurs informations de géolocalisation ou leurs historiques de recherche à des entreprises. Au nom de la gratuité et de l’amélioration du service.