Les données « anonymisées » ne peuvent jamais être totalement anonymes, selon une étude
Les données « anonymisées » ne peuvent jamais être totalement anonymes, selon une étude

Dans la pratique, des données supposées anonymes peuvent être déanonymisées de plusieurs façons pour identifier des personnes réelles. Photographie : Stefan Rousseau/PA
Les données « anonymisées » sont au cœur de tout, de la recherche médicale moderne aux recommandations personnalisées en passant par les techniques modernes d’IA. Malheureusement, d’après un article, il est pratiquement impossible d’anonymiser avec succès des données pour un ensemble complexe de données.
Un ensemble de données anonymisées est censé avoir été débarrassé de toutes les informations personnellement identifiables, tout en conservant un noyau d’informations utiles sur lequel les chercheurs peuvent opérer sans crainte d’une atteinte à la vie privée. Par exemple, un hôpital peut retirer les noms, adresses et dates de naissance des patients d’un ensemble de dossiers de santé dans l’espoir que les chercheurs puissent utiliser les grands ensembles de dossiers pour découvrir des liens cachés entre des maladies.
Mais dans la pratique, les données peuvent être déanonymisées de plusieurs façons. En 2008, un ensemble de données anonymisées de Netflix sur la classification des films a été dépersonnalisé en comparant les classements avec les scores publics sur le site Web du film IMDb en 2014 ; les adresses personnelles des chauffeurs de taxi de New York ont été découvertes dans un ensemble de données anonymes de voyages individuels dans la ville ; et une tentative du service de santé de l’Australie de proposer une facturation médicale anonyme a pu être réidentifiée en faisant référence aux « faits ordinaires » tels que la date de naissance des mères âgées et leurs enfants ou pour des mères de nombreux enfants.
Des chercheurs de l’Université catholique de Louvain (UCLouvain) et de l’Imperial College de Londres, en Belgique, ont maintenant construit un modèle pour estimer à quel point il serait facile de déanonymiser tout ensemble de données arbitraires. Un ensemble de données avec 15 attributs démographiques, par exemple, « pourrait ré-identifier 99,98% des habitants du Massachusetts ». Et pour les plus petites populations, c’est plus facile : si l’on inclut les données de localisation au niveau de la ville, par exemple, « il ne faudrait pas grand-chose pour réidentifier les personnes vivant à Harwich Port, Massachusetts, une ville de moins de 2 000 habitants ».

Malgré cela, les data brokers (courtiers en données) comme Experian vendent des ensembles de données « désidentifiées » qui contiennent beaucoup plus d’informations par personne. Les chercheurs soulignent une, vendue par cette société à la société de logiciels informatiques Alteryx, qui contenait 248 attributs par ménage pour 120 millions d’Américains.
Les chercheurs, dirigés par Luc Rocher de l’UCLouvain, soutiennent que leurs résultats montrent que l’anonymisation ne suffit pas pour permettre aux entreprises de contourner des lois telles que la réglementation générale de protection des données (GDPR). « Nos résultats rejettent les allégations selon lesquelles, premièrement, la ré-identification ne constitue pas un risque pratique et, deuxièmement, l’échantillonnage ou la publication d’ensembles de données partiels fournissent une négation plausible.
« Pour l’avenir, ils se demandent si les pratiques actuelles de désidentification répondent aux normes d’anonymisation des lois modernes de protection des données, telles que la GDPR (RGPD) et CCPA (California consumer privacy act), et soulignent la nécessité d’aller, d’un point de vue juridique et réglementaire, au-delà du modèle de divulgation et d’oubli de la désidentification « .
D’autres approches pour le traitement d’ensembles de données à grande échelle pourraient être plus conformes aux besoins modernes en matière de protection des données. La confidentialité différentielle, utilisée par des sociétés comme Apple et Uber, brouille délibérément chaque point de données individuel d’une manière qui fait la moyenne sur l’ensemble de données, empêchant la désonymisation en rapportant des informations techniquement incorrectes pour chaque personne.
Le cryptage homomorphe consiste à crypter les données afin qu’elles ne puissent pas être lues mais puissent être manipulées ; les résultats sont toujours cryptés, mais peuvent être décryptés une fois renvoyés au contrôleur des données. Et à la fin, les ensembles de données synthétiques impliquent la formation d’une IA sur des informations réelles et identifiables, puis leur utilisation pour générer de nouveaux et faux points de données qui sont statistiquement identiques mais qui ne se rapportent à aucun individu réel.