II - La périphérie : l'identité construite

46. Le noyau et la chair – Les éléments constitutifs de l’identité stable sont les coordonnées sociales qui mènent à un unique citoyen et permettent de lui imputer les conséquences juridiques de ses actions. La liste de ces éléments n’est certes pas absolument immuable : le numéro NIR n’a pas toujours existé, et l’utilisation de certaines données biométriques comme moyens d’identification est récente. Mais ils restent peu nombreux et bien identifiés.

Au cours de son existence, il émane de la personne, à chaque instant, un ensemble hétéroclite d’informations anecdotiques ou fondamentales. Ce qu’elle fait ou s’abstient de faire, ce qui l’intéresse, qui elle rencontre, ce qu’elle dit et entend, où elle va, où elle porte son regard, les bonheurs qui la comblent et les malheurs qui la frappent, ce qu’elle croit et ce qu’elle veut : tout est information. Jusqu’à une époque récente, la plupart de ces informations s’évaporaient dans l’air ambiant au fur et à mesure qu’elles apparaissaient, car elles n’étaient pas collectées, ni transcrites, ni conservées, ni rassemblées. Les systèmes numériques de traitement de l’information ont aujourd’hui des yeux et des oreilles partout. Ils n’oublient jamais, ou difficilement. Ils classent les informations, les trient, les recomposent pour les rendre facilement lisibles et exploitables.

L’information ne s’évapore plus. Aussitôt exsudée, elle est susceptible d’être remarquée, transcrite en une suite 1 et de 0, et placée dans une ou plusieurs bases de données. Ces fragments d’information s’enroulent autour de l’identité stable, sont pressés contre lui et y adhèrent pour ne plus le quitter. Autour du noyau se trouve à présent la chair, une nouvelle couche d’identité que l’on peut qualifier de « construite » – non par l’individu, mais par les systèmes de traitement de l’information. Nous verrons comment cette identité construite est née (A), puis comment elle s’est développée (B).

A – La naissance de l’identité construite

47. La prise de conscience – Au début des années 70, l’informatique personnelle n’existe pas encore, mais les outils de traitement de l’information se sont largement répandus dans des cadres professionnels, notamment dans les mains d’administrations publiques qui disposent depuis longtemps de considérables gisements de données sur leurs citoyens. Ces réservoirs d’information étaient cependant isolés les uns des autres. Or les voici tout à coup dotés d’une capacité à dialoguer : à croiser, à comparer et à rapprocher leurs contenus. Cette puissance nouvelle aux mains des pouvoirs publics, comme tout progrès technologique majeur, porte en son sein à la fois progrès et dangers. Les premières législations visant à encadrer les traitements d’information apparaissent en 1970 dans le Land de Hess, en 1973 en Suède, en 1974 aux États-Unis ¹. En France, c’est l’affaire « SAFARI », bien connue, qui poussera les pouvoirs publics à agir. Les grands traits en sont rappelés ainsi par Guy Braibant :

En 1970, l’INSEE décide, semble-t-il de son propre chef, d’informatiser le répertoire d’identification et le numéro national d’identification de tous les Français. Ce répertoire, et le numéro qu’il contient avaient été créés par le « Service de la démographie » au printemps 1941, à partir des relevés des registres des actes de naissance généralement effectués par les greffiers des tribunaux de première instance […]. Le but de cette informatisation était de parvenir à un identifiant unique pour les fichiers de toutes les administrations publiques et les caisses de la Sécurité sociale. Dans le même temps, le ministère de l’Intérieur s’apprêtait à mettre en œuvre un ordinateur très puissant destiné à la centralisation des bases de données que possédaient les services de police (dont les renseignements généraux, la direction de la sécurité du territoire, la police judiciaire). Or, le paradoxe que révélait l’article de Philippe Boucher ( “Safari ou la chasse aux Français,”, paru dans Le Monde le 21 mars 1974) était que le Premier ministre avait écarté toute proposition de débat public sur les projets d’informatisation du gouvernement et ce, contrairement aux recommandations du Conseil d’État (rapport non publié de 1971) ou du ministère de la Justice, mais contrairement aussi aux gouvernements des pays voisins ².

Le célèbre article de Philippe Boucher. Le Monde du 21 mars 1974.

L’article du Monde ayant fait scandale, une commission est constituée ³, qui rendra le 27 juin 1975 un rapport rédigé par le conseiller d’ État Bernard Tricot et le professeur de droit Pierre Catala. Il faudra attendre le 6 janvier 1978 pour que naisse la loi dite « informatique et libertés » ⁴. Le rapporteur, l’ancien ministre de la Justice Jean Foyer, rappelle d’abord quels services immenses le traitement automatisé de l’information rend à la société : « Cette machinerie, elle-même inintelligente, a multiplié les moyens de l’intelligence humaine. Sans l’informatique, les hommes ne seraient pas allés dans la Lune » ⁵. Mais il en décrit ensuite les dangers.

Car l’ordinateur a une mémoire qui, à la différence de la mémoire des hommes, n’a pas la faculté d’oublier. Il n’oublie que ce qu’on efface en lui. Il est capable de sélectionner en quelques instants des données dont le recensement aurait demandé sans son aide peut-être des heures, des jours, voire des mois ou des années. Par des interconnexions entre ordinateurs, il devient possible de rassembler sur une question ou sur une personne une moisson énorme d’informations. […] La conservation massive et systématique des données relatives à chaque personne tend aussi à juger les situations en attachant aux individus des étiquettes jadis plus rares et plus approximatives, et dont il leur était plus facile de se débarrasser. Est-il indispensable qu’on puisse savoir d’un homme de soixante ans qu’il était énurétique à trois ans, qu’il a contracté la coqueluche à huit ans, qu’il a échoué au baccalauréat à seize ans, qu’il a subi une punition durant son service militaire, qu’il a blessé un passant en voiture à vingt-cinq ans, qu’il a été licencié par un employeur à quarante ans et qu’il a subi une intervention chirurgicale à cinquante ans ? ⁶

48. Le nouveau visage de l’information – Dès 1978, on dresse donc un constat dont la pertinence ne fera que croître jusqu’à nos jours : les mêmes informations ont une valeur, un potentiel, présentent des risques très différents selon la manière dont on les exploite. Lorsque les données étaient attachées à des feuilles de papiers, elles étaient périssables, et leur maniement d’une infinie lenteur. Regrouper un ensemble de savoirs administratifs ou privés attachés à un individu nécessitait une patience et des moyens rarement mis en œuvre pour un citoyen ordinaire. L’écoulement du temps enterrait inexorablement les archives les plus anciennes sous des couches de poussière, les poussait vers le fond des placards, ou vers les broyeuses. L’époque de l’informatique est celle de l’hypermnésie, de la mise en ordre et de la consultation de données à la demande, en un claquement de doigts. « L’informatique, résumait encore Jean Foyer devant l’Assemblée nationale, présente des dangers pour la liberté, des dangers beaucoup plus grands que les anciens fichiers manuels ou mécanographiques. Il est des cas, en effet, dans lesquels la différence de degré se transforme en différence de nature » ⁷. S’il pressentait les progrès encore à venir, l’orateur ne pouvait imaginer leur ampleur ni la vitesse à laquelle ils seraient accomplis.

B – La montée en puissance de l’identité construite

49. De l’information choisie à l’information totale – Depuis les années 70, les modes de collecte des informations personnelles ont beaucoup évolué. La saisie manuelle était le mode principal d’alimentation des bases de données. Une fois numérisée, l’information devenait agile : elle pouvait être consultée, traitée ou transmise en quelques instants. Mais au moins le premier stade était-il affecté d’une certaine pesanteur, réduisant l’efficacité générale de la chaîne de traitement. Les bénéfices, mais aussi les risques de mauvais usages en étaient amoindris. Une information anodine ne pouvait pas faire l’objet d’une saisie manuelle. Les ressources humaines nécessaires à une telle saisie coûtent cher. Facteur aggravant : chaque fois qu’on élargit le spectre des informations recherchées, du plus fondamental vers le plus anecdotique, le nombre de données à aspirer augmente de manière exponentielle. Enfin, aux débuts de l’informatisation, on ne soupçonnait pas la valeur ajoutée qui peut être tirée d’un rapprochement à très grande échelle d’informations qui, prises isolément, n’ont aucun intérêt.

Désormais, c’en est fini des collectes laborieuses (1) et des traitements à courte vue (2).

1 – Une collecte généralisée

50. La collecte en ligne : signaux, traces – Aujourd’hui, une énorme masse de données est accumulée par des machines, à chaque seconde qui passe, en toute autonomie. L’on songe immédiatement aux données circulant en ligne : requêtes adressées aux moteurs de recherche, publications sur les blogs et réseaux sociaux, échanges de courriers électroniques… M. Dominique Cardon relève ainsi que « si l’on numérisait toutes les communications et les écrits depuis l’aube de l’humanité jusqu’en 2003, il faudrait 5 milliards de gigabits pour les mettre en mémoire. Aujourd’hui, nous générons ce volume d’informations numériques en deux jours ! » ⁸.

Lorsque l’information est fournie par l’internaute directement au prestataire qui entend l’exploiter, celui-ci n’a qu’à attendre et laisser les contenus s’accumuler dans ses bases de données. C’est le cas des réseaux sociaux, comme Facebook. Mais les géants d’Internet ne s’en tiennent pas là et lancent leurs robots d’exploration (les crawlers) sur l’ensemble des pages publiquement accessibles à travers le monde. Les moteurs de recherche généralistes, comme Google Search, sont alimentés ainsi.

L’univers des données collectées en ligne est encore bien plus vaste. Nous n’avons mentionné jusqu’ici que ce que M. Cardon appelle des « signaux ». Il s’agit de l’ensemble des « contenus explicites, informations ou expressions subjectives » : l’internaute livre activement des informations à un service ou à un interlocuteur, et il en a conscience. À ces signaux doivent être ajoutés des « traces », « enregistrements contextuels de comportements […] (clics, géolocalisation, navigation, vitesse de lecture, etc.) » ⁹. Autrement dit, la manière même de naviguer sur Internet fait l’objet d’une recension très précise. Faire défiler une page Internet puis ralentir tout à coup face à un élément particulièrement intéressant, avant de reprendre un défilement plus rapide, cela revient souvent à produire une information, qui pourra être exploitée à des fins publicitaires notamment. L’internaute n’a pourtant rien exprimé, et n’a peut-être pas même eu conscience de ce comportement. De même saura-t-on qu’il s’est connecté à telle page mais, n’appréciant pas son premier coup d’œil, l’a quittée moins de quatre secondes plus tard ; qu’il y est toutefois revenu après qu’une publicité ciblée affichée sur le site de son quotidien préféré l’y aura incité ; qu’il y sera revenu une troisième fois le lendemain après réception d’un email « personnalisé » lui proposant un rabais exceptionnel de 10%, et aura finalement contracté.

51. Sur les traces de l’internaute : IP et cookies – Le premier vecteur de ces pratiques de suivi de l’internaute (web tracking) est l’adresse IP. Rappelons qu’il s’agit d’un identifiant chiffré, qui désigne un point d’accès au réseau ouvert par un fournisseur d’accès à Internet (FAI) ou plus précisément encore une machine connectée. Seul le FAI sait à quel client abonné correspond l’adresse IP. Même s’il est requis par les autorités, il ne pourra que leur fournir le nom de cet abonné, et pas le nom de la personne assise derrière l’écran. Or, il pourrait ne pas s’agir de la même personne dans le cas d’un point d’accès collectif (famille, association, entreprise, cybercafé). L’internaute réel pourrait même être un pirate ayant réussi à s’introduire dans le réseau wifi d’autrui. En d’autres termes, même pour les pouvoirs publics s’étant adjoint le concours des FAI, l’adresse IP n’est pas totalement identifiante. Pour cette raison, la loi dite HADOPI a recouru à un expédient. Si une adresse IP est détectée sur un réseau de pair-à-pair, en train d’échanger des fichiers en violation du droit d’auteur, l’abonné n’est pas directement sanctionné pour contrefaçon – faute de preuve qu’il était bien au clavier – mais pour n’avoir pas suffisamment surveillé son point d’accès à Internet ¹⁰. Lorsqu’une plateforme observe qu’une requête lui est adressée par une certaine adresse IP, elle dispose de moins d’informations encore, puisqu’elle n’a pas accès au répertoire du FAI. Pourtant, cette information est extrêmement précieuse, pour deux raisons. La première raison est que l’adresse IP est porteuse d’une localisation géographique. Les adresses IP sont attribuées par l’Internet Assigned Numbers Authority (IANA), une branche de l’Internet Corporation for Assigned Names and Numbers (ICANN), la puissante association de droit californien qui gère les adresses Internet ¹¹. La répartition des adresses IP n’a rien d’aléatoire. Une tranche d’adresses correspond à une fraction de territoire, d’une précision généralement au moins égale à la ville ou au village d’où se connecte l’internaute. L’adresse IP permet donc de savoir, avec une acuité relativement élevée, d’où se connecte un terminal lorsqu’il n’est pas possible d’obtenir une géolocalisation parfaite à l’aide d’une puce GPS. La deuxième raison pour laquelle l’adresse IP est précieuse, c’est qu’elle reste stable sur plusieurs jours, voire plus longtemps encore. Elle permet donc à un site de « reconnaître » un internaute qui n’en est pas à sa première visite. Elle constituera un substrat autour duquel vont s’agglomérer des informations, un embryon d’identité numérique, qui finira souvent par être rattaché à une identité stable. À elle seule, toutefois, l’adresse IP ne suffit pas à suivre, à tracer correctement les internautes. Le recours à des cookies est indispensable.

Pour expliquer ce qu’est un cookie, M. Lessig rappelle qu’aux origines d’Internet, les serveurs se contentaient de répondre aux requêtes des machines clientes (celles des visiteurs du site) sans rien savoir de ces machines. La page demandée était-elle la première consultée sur le site, ou y en avait-il eu une autre avant ? Si oui, laquelle ? Le serveur, incapable de faire un lien entre les différentes étapes d’une même session de navigation, était a fortiori inapte à reconnaître un visiteur au fil de ses différentes visites, sur des jours ou des semaines. Cette situation présentait certes d’importants avantages sur le plan de la préservation des vies privées, mais interdisait certaines fonctionnalités aujourd’hui considérées comme fondamentales :

Say you go to Amazon.com and indicate you want to buy 20 copies of my latest book.(Try it. It’s fun.) Now your “shopping cart” has 20 copies of my book. You then click on the icon to check out, and you notice your shopping cart is empty. Why? Well because, as originally architected, the Web had no easy way to recognize that you were the same entity that just ordered 20 books. Or put differently, the web server would simply forget you. The Web as originally built had no way to remember you from one page to another. And thus, the Web as originally built would not be of much use to commerce.
[…] But as I’ve said again and again, the way the Web was is not the way the Web had to be. And so those who were building the infrastructure of the Web quickly began to think through how the web could be “improved” to make it easy for commerce to happen. “Cookies” were the solution. In 1994, Netscape introduced a protocol to make it possible for a web server to deposit a small bit of data on your computer when you accessed that server. That small bit of data—the “cookie”—made it possible for the server to recognize you when you traveled to a different page.

En ce qu’il constitue la mémoire à long terme des serveurs, le cookie est devenu indispensable ¹². Outre l’exemple du commerce électronique, on peut citer tous les services en ligne qui délivrent des contenus particuliers à la suite d’une authentification. Le cookie n’est donc pas une technique condamnable en soi. Mais une fois son principe admis, elle peut servir à enregistrer les plus infimes détails de la navigation, chaque clic de souris. « Imagine libraries kept records of every time you opened a book at the library, even for just a second » ¹³. Sur le moyen terme, non seulement un pool d’informations potentiellement très intimes a-t-il été constitué, mais il est presque certain qu’il pourra être rattaché à une identité stable. M. Lessig donne l’exemple d’un internaute qui, une seule fois, participe à un jeu-concours pour l’organisation duquel le site Internet demande les nom, prénom, adresse du joueur. Si le cookie n’est pas supprimé, il n’oubliera plus ces informations, qui flotteront en quelque sorte autour du pointeur de la souris à chaque future visite ¹⁴. Inquiétantes à l’échelle d’un site unique, ces techniques effraient lorsque l’on découvre qu’elles sont mises en œuvre, de manière croisée et collaborative, par de nombreux sites œuvrant en réseau. Car un site A peut fort bien héberger sur sa page des cookies qui ne sont pas fournis par lui, mais par ses partenaires X, Y, Z, qui sont souvent des régies publicitaires en ligne. Ces régies sont peu nombreuses, et sont présentes sur la grande majorité des sites visités par le grand public. Ainsi, compléter un formulaire nominatif sur n’importe laquelle des pages contractant avec ces régies revient à donner son identité à l’ensemble des membres du partenariat. En particulier, certains réseaux sociaux collaborent avec ces professionnels de la publicité en ligne. Or, aucun utilisateur d’un réseau comme Facebook ne peut prétendre rester anonyme, quand bien même il se serait inscrit sous un pseudonyme ¹⁵.

VIDEO - Les cookies vus par la CNIL

VIDEO - Observer les traceurs en action grâce à une extension de navigateur

Gary Kovacs présente en 2012 un projet destiné à visualiser les traceurs pistant l'internaute (N.B. : l'extension de navigateur présentée s'appelle aujourd'hui Lightbeam)

Les moyens permettant de tracer les activités en ligne sont donc aujourd’hui d’une très grande puissance. Mais la récolte d’informations hors-ligne est tout aussi importante.

52. Les informations recensées par les téléphones intelligents – Les frontières de la présence en ligne et hors-ligne sont devenues particulièrement poreuses depuis la généralisation des téléphones intelligents. Chaque utilisateur d’un appareil de ce type est, en quelque sorte, connecté en permanence. Mais il est important de relever que ces appareils fournissent des données à des tiers même lorsque leur propriétaire n’est pas en train d’utiliser un service en ligne. En effet, même s’ils comportent des navigateurs classiques permettant de visiter des sites Internet — et qui recueillent des cookies -, ces téléphones intelligents reposent surtout sur des applications, choisies par le propriétaire du terminal pour lui rendre service. Ces applications requièrent, lors de leur installation, un accès plus ou moins étendu aux différentes couches d’information du système d’exploitation. Ainsi, une application d’aide à la navigation automobile demandera accès à la géolocalisation. Une application de messagerie sollicitera une autorisation d’accéder aux données concernant les contacts de l’utilisateur. Ce système se raffine au fur et à mesure des évolutions des principaux systèmes d’exploitation sur mobile — notamment iOS d’Apple et Android de Google — mais il était au départ très grossier : les catégories d’utilisation étaient très larges, l’utilisateur était peu informé. Surtout, une fois l’autorisation accordée, elle peut être utilisée en permanence. L’application de messagerie peut scruter la composition du carnet d’adresses, la durée et la destination des appels… alors même que cela n’est probablement pas strictement nécessaire au service. L’application de navigation peut demander sans cesse où se trouve le terminal, alors même qu’aucune aide à la conduite n’est en cours. La CNIL et l’INRIA, après avoir procédé à une batterie de tests, relèvent par exemple :

Ainsi, une application de service de réseau social a pu accéder 150 000 fois en 3 mois à la localisation d’un de nos testeurs. Cela représente un accès en moyenne par minute. Certaines applications qui ont obtenu l’autorisation (générique) d’accéder à la localisation ne se privent donc pas de l’utiliser, même lorsque l’application n’est pas visible à l’écran. D’une manière générale, beaucoup d’applications accèdent très souvent à la localisation (ainsi, plus de 3 000 fois en 3 mois pour un jeu). En volume, la géolocalisation est aussi la donnée la plus collectée : elle représente à elle seule plus de 30% des évènements détectés, sans être toujours liée à des fonctionnalités offertes par l’application ou à une action de l’utilisateur ¹⁶.

53. Les objets connectés – Les frontières des mondes en ligne et hors-ligne se brouillent encore lorsque l’on évoque les objets connectés, qui visent précisément à rattacher les choses du quotidien au réseau ¹⁷. Cela permet leur pilotage à distance, soit par leur propriétaire situé n’importe où dans le monde, à l’aide d’un terminal, soit par des algorithmes censés les rendre « intelligents ». Objets connectés, avez-vous donc une âme ? Ainsi un thermostat connecté permet-il à une famille rentrant de vacances plus tôt que prévu de rallumer la chaudière à distance, afin que la maison soit à la température souhaitée en arrivant. Mais il peut, le reste du temps, être dirigé par un algorithme qui tiendra compte des prévisions météorologiques et des caractéristiques du logement pour piloter plus finement les variations dans la puissance de chauffage. Il en résulterait des économies d’énergie ¹⁸. Puisque « l’intelligence » de l’objet n’est pas logée dans un processus implanté localement, mais à distance, il devient « nécessaire » de fournir aux serveurs de l’entreprise le commercialisant un ensemble de données très précieuses sur les habitudes du foyer.

VIDEO - Une publicité pour un thermostat connecté

En contrepartie des services décrits, l'objet connecté recueillera de nombreuses informations très intimes sur ses utilisateurs.

RADIO - France culture - L’Internet des objets est-il compatible avec la vie privée?

Emission "Science publique" de Michel Alberganti du 9 mai 2014, avec Pierre Métivier, Marie-Charlotte Roques-Bonnet, Pierre-Jean Benghozi et Fabrice Mattatia.

POP CULTURE - Sauvé par son frigo

Extrait de la série télévisée Silicon Valley, saison 4, épisode 7, 2017, dir Mike Judge.

Le relevé et la transmission des consommations du foyer peut être la finalité principale de l’objet connecté : c’est le cas des compteurs intelligents, comme le Linky d’Enedis. Parfois, l’objet aura pour mission de passer des commandes à un commerce en ligne pour le compte de son propriétaire ¹⁹. Parfois encore, son accès au réseau lui servira à diffuser des contenus : c’est le cas des téléviseurs connectés. Ces derniers ont parfaitement illustré le risque présenté par les objets connectés. La Federal Trade Commission américaine vient d’infliger une amende supérieure à 2 millions de dollars à un fabricant de téléviseurs connectés qui espionnaient ses utilisateurs, à leur insu, en analysant seconde après seconde les contenus diffusés sur son écran. Ces données étaient croisées avec celles récoltées par des tiers afin de connaître le sexe, l’âge, les revenus, le statut familial, ou encore le niveau d’éducation des occupants ²⁰.

54. Les informations collectées hors-ligne – Même les personnes ne naviguant jamais sur Internet et ne disposant que d’un téléphone traditionnel ne sont pas à l’abri de cette grande moisson d’informations. Si l’individu n’est pas connecté, ses interlocuteurs privés et publics le sont. Les modes d’alimentation des bases de données sont multiples, et vont de la saisie manuelle par une administration ou un agent d’assurance jusqu’à l’emploi de cartes de fidélité, sans oublier les informations particulièrement sensibles et précises que constituent les données bancaires, résultant du fonctionnement des comptes et moyens de paiement.

Comme l’écrit un auteur, « les capteurs numériques sont en train de jeter leur filet sur le monde pour le rendre mesurable en tout. Le savoir et les connaissances, les photographies et les vidéos, nos mails et ce que nous racontons sur Internet, mais aussi nos clics, nos conversations, nos achats, notre corps, nos finances ou notre sommeil deviennent des données calculables » ²¹. Ces données ont ensuite vocation à être exploitées.

2 – Des traitements à grande échelle

55. Le traitement décorrélé de l’identité – Il est possible d’extirper une valeur aux données, qu’elle soit scientifique ou économique, en les détachant de toute identité stable. « Big data » : l’expression est à la mode. On peine à en trouver une définition précise, et elle semble relever davantage d’un discours marketing que d’un concept scientifique identifié. Elle renvoie simplement à l’étude d’un ensemble extrêmement volumineux de données ²². Une telle analyse peut être conduite selon des méthodes et pour la poursuite de finalités très diverses. Le secteur des assurances, par exemple, est accoutumé depuis longtemps à construire des prédictions de risques à partir de données nombreuses, tirées notamment des sinistres antérieurs. La démarche, en soi, n’est donc absolument pas nouvelle. Simplement, les sources de données sont, on l’a vu, devenues innombrables, et les capacités de traitement informatique ont explosé, ce qui augmente les capacités de projection des actuaires de ces compagnies.

Mais le big data renvoie aussi à des usages véritablement nouveaux. Il peut s’agir d’améliorer des infrastructures collectives, en identifiant les besoins pour mieux répartir les ressources. Les dizaines de milliers de circuits individuels parcourus par des automobilistes, et connus des logiciels de navigation GPS ou de l’entreprise de transport Uber peuvent être cédés à des villes, afin qu’elles améliorent leur réseau routier ²³.

Autre application du big data, l’apprentissage statistique (machine learning) permet aux ordinateurs d’acquérir de nouvelles compétences jusqu’ici réservées à l’être humain. Ainsi peuvent-ils reconnaître des objets ou des personnes sur des images, ou apprendre à conduire, après avoir analysé des millions de cas concrets puisés dans des réservoirs de données.

Dans ces exemples, il n’est pas nécessaire de continuer à associer une identité aux données personnelles. Peu importe qui étaient les 50 000 conducteurs qui ont parcouru la ville de Boston en transmettant leur géolocalisation, permettant d’améliorer ses infrastructures, ou enregistrant l’ensemble de leurs actions de conduite à des fins de machine learning. Parfois, il faut cependant connaître des caractéristiques de l’individu, théoriquement non identifiantes à elles seules, pour que les données puissent être employées : un assureur qui veut cerner un risque maladie doit savoir si les données proviennent d’un fumeur ; celui qui travaille sur le risque d’accident automobile souhaite connaître l’âge, l’ancienneté du permis, le type de véhicule, et même le sexe du conducteur ²⁴.

L’analyse de données de masse peut servir à adapter des contenus publicitaires à un individu précis, sans nécessairement rechercher son identité stable. Grâce à des cookies répartis sur un ensemble de sites partenaires, une régie publicitaire connaît les sites consultés par un individu sur plusieurs semaines. Elle opère un rapprochement avec des profils similaires relevés chez des milliers d’autres personnes. L’algorithme relève que, parmi elles, nombreuses sont celles qui ont fait l’acquisition d’un bien de consommation particulier : une publicité pour cet objet s’affichera à son intention. Il n’est même pas nécessaire de passer par un raisonnement – de type : « puisque ces personnes s’intéressent aux nouvelles technologies, il faut donc leur proposer un téléphone dernier cri ». Une simple corrélation est aujourd’hui employée : « ceux qui ont visité les mêmes sites que lui ont ensuite acheté un téléphone dernier cri ». Dans cette hypothèse, la régie publicitaire n’a pas plongé dans l’identité numérique jusqu’à son noyau, l’identité stable. Elle s’est contentée de naviguer à la périphérie, au sein de signaux et de traces anonymes.

56. Le traitement corrélé à l’identité – Souvent, le traitement est bel et bien corrélé à l’identité. C’est évidemment le cas lorsque la personne elle-même fournit ses « coordonnées juridiques et sociales uniques » : un NIR, un ensemble constitué de ses nom, prénom, lieu et date de naissance… Mais au moins a-t-elle conscience, alors, que les données collectées dans ce cadre s’agglutineront autour de son identité stable. Le plus inquiétant n’est pas là : c’est la facilité avec laquelle, par un jeu de recoupements et de déduction, il est possible, et facile, de passer d’un jeu de données théoriquement anonyme à l’identité d’une personne unique.

VIDEO - François Pellegrini, "Big data et données personnelles"

Intervention de François Pellegrini, professeur d'informatique à l'Université de Bordeaux, lors de la journée annuelle de l'association Juriconnexion du 6 décembre 2015 intitulée : le "big data" juridique, enjeux et opportunités.

Une importante régie publicitaire en ligne présente ses méthodes comme suit : « Contrairement aux méthodes probabilistiques généralement proposées par les autres solutions publicitaires, Universal Match est une composante unique développée par Criteo qui permet de comprendre les intentions d’achats d’un individu à travers l’ensemble des appareils, navigateurs et applications, grâce à une identification anonyme de l’utilisateur » ²⁵. Cette « identification anonyme », aux allures d’oxymore, repose sur la substitution au nom d’un pseudonyme, constitué d’une suite de chiffres et de lettres sans signification apparente. Mais cela signifie bien que l’entreprise dispose, pour chaque individu, d’un et un seul répertoire de données. Au-delà des frontières apparentes que constituent les différents terminaux, les différentes localisations de l’individu, l’entreprise voit l’utilisateur – elle voit l’homme. D’un tel profil à la révélation de l’identité stable, il n’y aurait qu’un saut de puce à accomplir.

À quoi sert-il de corréler un ensemble de données à une identité ? On l’a vu, à améliorer encore les performances de la publicité ciblée par rapport à une approche statistique anonyme – un enjeu qui pèse des milliards. Cela peut encore servir à prendre des décisions lorsque l’individu concerné se présente à une banque ou à une compagnie d’assurance : contracter ou pas avec lui, et à quelles conditions. Cela peut servir à identifier un délinquant, à briser l’anonymat sous lequel il croyait agir.

Des années 70 à nos jours, nous avons assisté à la montée en puissance de l’avatar numérique de l’individu. Voyons à présent comment notre système juridique le protège (section 2).