La donnée « non-personnelle » (anonyme) existe-t-elle ?

01/08/2019 - Olivia Guerguinov, Etienne Wery , Thierry Léonard

Des chercheurs annoncent avoir mis au point un algorithme qui remet (une fois de plus) en cause le principe même de l’anonymat. Une donnée anonyme est-elle une simple vue de l’esprit ? L’enjeu est fondamental car le GDPR ne s’applique que s’il y a un traitement de … données à caractère personnel. Ce qui suppose que certaines données n’ont pas cette caractéristique. Que faire dès lors si la donnée « non-personnelle » (anonyme ou anonymisée) ne correspond en réalité à rien ?

Les données non-personnelles échappent au GDPR

Le principe est le suivant : les régimes de protection des données (dont le Règlement général sur la protection des données, en abrégé « GDPR ») s’appliquent dès lors qu’il y a un traitement de … données à caractère personnel.

A l’inverse, un traitement qui ne porte pas sur des données personnelles échappe aux réglementations en la matière.

D’où l’idée de « rendre les données anonymes » pour se soustraire aux obligations légales.

En pratique, il existe différentes techniques d’anonymisation (la « k-anonymisation », la «l-diversité », la « confidentialité différentielle », etc.(pour en savoir plus ou comprendre comment fonctionnent ces méthodes : avis 05/2014 du 10 avril 2014 sur les techniques d’anonymisation). Quel avocat n’a connu cette situation embarrassante d’avoir à expliquer à un client convaincu qu’il échappe au GDPR, que le seul fait d’avoir remplacé le nom de famille par des initiales ne lui permet pas d’échapper à la rigueur de la loi ?

L’anonymisation est-elle un leurre ?

Déjà en 2014, le CEPD (« Comité Européen de Protection des Données », anciennement « Groupe Article 29 ») affirmait que le risque d’identification était inhérent aux techniques d’anonymisation (cf. avis 05/2014 du 10 avril 2014 sur les techniques d’anonymisation).

En 2015, une étude publiée dans le magazine « science et vie », révélait d’ailleurs comment des informaticiens étaient parvenus à retrouver l’identité de personnes au départ de quelques informations supposément « anonymes » gérées et transmises par les banques, et plus spécialement celles en lien avec des transactions effectuées au moyen d’une carte de crédit. Ces informations n’indiquaient ni le nom, ni le numéro de carte, ni l’adresse ou l’heure exacte de la transaction : seulement le montant de la transaction, le type de magasin (sport, vêtements, restaurant, etc.) et un numéro représentant chaque personne. Grâce à ces informations, les mathématiciens du M.I.T disposaient pour chaque personne d’un « schéma de dépenses ». A partir de là, ils ont pu identifier les personnes concernées en corrélant ces mêmes informations avec d’autres (disponibles sur la toile (Facebook, etc.) ou obtenues en piratant des sites Internet). Selon les chercheurs, pour pouvoir associer 90% des schémas de dépenses à des personnes identifiées, il a suffi à l’algorithme de disposer (grâce aux fuites de sites) d’informations sur seulement quatre lieux où s’était rendue cette même personne dans d’autres circonstances ». Surprenant, non ?

Ce risque de ré-idenfier précisément les individus au sein de bases de données « anonymisées » se confirme aujourd’hui. Une étude publiée récemment par des chercheurs de l’UCLouvain et d’Imperial College London démontre qu’un bon algorithme permet de retrouver n’importe qui (cliquez ici pour accéder à l’étude complète).

Un nouvel algorithme enfonce le clou

Les chercheurs de l’UCLouvain et d’Imperial College London ont récemment annoncé avoir développé un algorithme qui permet d’évaluer le probabilité pour une combinaison de caractéristiques connues (par exemple la date de naissance, le lieu de résidence, le sexe, etc.) d’être suffisamment précise pour décrire un seul individu parmi plusieurs milliards de personnes. En d’autres mots cela signifie qu’on peut estimer, avec précision, si des données « ré-identifiées » appartiennent à la bonne personne ou non.

L’un de ces chercheurs (Luc Rocher) l’explique d’ailleurs: « Beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi elles, beaucoup moins sont également nées le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants (des filles) et un chien » (cf. le communiqué de presse de l’UCLouvain).

Résultat ? Grâce à cet algorithme, les chercheurs ont montré qu’avec 15 attributs démographiques, il était possible de ré-identifier précisément 99,98% des Américains dans n’importe quelle base de données, avec des chiffres similaires à travers le monde (16 attributs en ajoutant la nationalité).

Pour vous aider à mieux comprendre les caractéristiques qui rendent les individus uniques dans les bases de données, nous vous invitons à aller faire un tour sur leur outil de démonstration en ligne.

Conclusion

Des données peuvent-elles vraiment devenir à 100% anonymes ?

L’enjeu est majeur non seulement pour les personnes concernées et les responsables de traitement, mais aussi pour le législateur qui a conçu la logique du RGPD sur une summa divisio : le règlement ne s’applique qu’aux traitements de données personnelles. Pour le dire autrement : si toutes les données sont potentiellement personnelles, parce qu’une donnée anonyme est une vue de l’esprit, la logique même du règlement est ébranlée.

Pour l’instant, on continuera de fonctionner sur la base de la définition actuelle telle qu’interprétée par la CJUE, qui implique de vérifier in concreto s’il est raisonnablement possible que la donnée puisse permettre l’identification d’une personne.

Telle est bien la substance de l’arrêt Breyer rendu en matière d’adresse IP : « l’article 2, sous a), de la directive 95/46/CE (…) doit être interprété en ce sens qu’une adresse de protocole Internet dynamique enregistrée par un fournisseur de services de médias en ligne à l’occasion de la consultation par une personne d’un site Internet que ce fournisseur rend accessible au public constitue, à l’égard dudit fournisseur, une donnée à caractère personnel au sens de cette disposition, lorsqu’il dispose de moyens légaux lui permettant de faire identifier la personne concernée grâce aux informations supplémentaires dont dispose le fournisseur d’accès à Internet de cette personne ».

Vous avez besoin d'un avis personnalisé
ou d'une aide juridique ?

Contactez-nous

La donnée « non-personnelle » (anonyme) existe-t-elle ?

Les données non-personnelles échappent au GDPR

L’anonymisation est-elle un leurre ?

Un nouvel algorithme enfonce le clou

Conclusion

Auteurs

Olivia Guerguinov

Etienne Wery

Thierry Léonard

Principes

L’autorité de protection des données souhaite contourner la Cour des marchés qu’elle trouve trop sévère à son égard

Un site de petites annonces est parfois obligé de vérifier l’identité de l’utilisateur, et refuser la publication en cas de problème

Pseudonymisation : la CJUE confirme qu’une donnée peut perdre son statut de donnée « à caractère personnel »

«A partir d’aujourd’hui, Meta entraîne son IA avec vos données publiques

Vendée Globe : la mention « n’a pas fini » attribuée à un skipper arrivé hors délai, est-elle exacte au sens du RGPD ?

Droits

Non, la Cour de cassation n’a pas autorisé les salariés à repartir avec toute leur boîte mail

RGPD : la Cour de cassation corrige la cour d’appel… et se trompe à son tour

Vendée Globe : la mention « n’a pas fini » attribuée à un skipper arrivé hors délai, est-elle exacte au sens du RGPD ?

RGPD et transidentité : le droit de rectification de données relatives à l’identité de genre ne peut être subordonné à la preuve d’un traitement chirurgical

Droit d’accès : la CJUE admet qu’une demande, même unique, puisse constituer un abus de droit

Secteur public

L’autorité de protection des données est-elle soumise au RGPD ? La Cour de justice saisie d’une question piquante

Le Conseil d’État bloque l’analyse algorithmique des caméras aux abords des écoles

L’administration peut-elle publier sur Internet la liste des mauvais contribuables ?

Le gouvernement allemand doit fermer sa Page Facebook

Police : la collecte des empreintes et de l’ADN ne peut pas être systématique

La lutte contre le blanchiment ne justifie pas l’accès public illimité aux données des personnes morales

La Belgique tient-elle (enfin) sa loi sur la conservation des données de communication ?

Conservation des données de trafic, de connexion et de localisation : où en est-on ?

La souveraineté nationale peut-elle s’accommoder d’un cloud américain ?

Covid : l’État sommé par la CNIL de renoncer aux drones

Drones et Covid ne font pas bon ménage

Terrorisme et vie privée sont-ils inconciliables ?

Contrôle

L’autorité de protection des données souhaite contourner la Cour des marchés qu’elle trouve trop sévère à son égard

L’autorité de contrôle est-elle obligée de sanctionner une violation du RGPD ?

En 300 pages, la CNIL propose un résumé de sa doctrine

«RGPD : l’amende est réservée aux violations fautives du règlement

ChatGPT interdit en Italie : l’autorité fait le buzz mais a-t-elle raison ?

Transferts internationaux

Voici pourquoi le mécanisme de transfert des données vers les USA sera probablement annulé

Une donnée peut perdre son caractère « personnel » à l’occasion d’un transfert

Transferts UE-USA : le parlement européen pas convaincu !

Un nouvel accord pour le transfert des données vers les États-Unis

Transfert de données personnelles vers les États-Unis : le Tribunal de l’UE valide la décision d’adéquation de la Commission

Cookies

100.000.000 euros : un cookie qui coûte cher à Google

Cookies : 100.000.000 € d’amende contre Google

Cookies et consentement : l’impossible mariage ?

Les cookies peuvent coûter très cher …

La directive « vie privée et communications électroniques » sera revue et remplacée par un règlement

Vie privée

RGPD et recherche scientifique : le cadre juridique en Belgique

L’usurpation de l’identité numérique : les réseaux sociaux sur la selette

Droit et réalité augmentée