Un futur sans cookies tiers : le tracking sous toutes ses formes
Le Web moderne est fortement dépendant de toutes sortes de cookies : une affirmation à la fois vraie et évidente, qui ne changera pas de sitôt.
Les annonceurs utilisent des cookies tiers pour diffuser leurs publicités ; et les propriétaires de sites web utilisent des cookies de première partie afin de mesurer leur audience. Les développeurs utilisent toutes sortes de cookies afin de stocker les préférences sélectionnées par les utilisateurs. Même les fenêtres pop-up d’information relatives aux cookies sont basées sur les cookies !
Existe-t-il donc des alternatives aux cookies tiers ? Eh bien, il y en a certaines que nous allons voir ensemble.
A quoi sert les cookies dans le suivi d’un utilisateur ?
Pendant des années, les cookies ont été utilisés comme principal outil pour identifier un utilisateur. De cette manière, il est possible de mesurer le comportement d’un utilisateur sur un même site web ou de suivre un utilisateur sur plusieurs sites web. La distinction entre un nouveau et un ancien visiteur dans Google Analytics est un bon exemple de l’utilisation des cookies.
Autre cas d’utilisation : un utilisateur consulte un produit particulier dans une boutique en ligne et des publicités ciblées pour ce produit lui sont ensuite présentées sur des sites Web tiers. Ce suivi de l’utilisateur sur plusieurs sites web se fait également à l’aide de cookies.
Les cookies peuvent être utilisés à des fins commerciales légitimes et importantes, telles que la compréhension du comportement des utilisateurs du site web en général ou l’efficacité et la performance des publicités.
Cependant, les cookies peuvent également entraîner des problèmes de confidentialité. Ils peuvent être utilisés pour suivre les utilisateurs et leur comportement sur le web sans leur consentement. Ils peuvent également être utilisés, comme mentionné ci-dessus, pour cibler les utilisateurs avec des messages publicitaires sans leur consentement.
L’industrie des médias numériques a fait confiance aux “cookies” pour tracer les utilisateurs sur le Web. Il n’est donc pas étonnant que le secteur soit en mode panique ; la plupart des navigateurs ont limité leur utilisation et le dernier bastion, Chrome, a annoncé son arrêt d’ici 2022. (sans parler de la décision d’Apple de bloquer les cookies tiers)
Les alternatives aux cookies de tierce partie
Même si le navigateur ne bloque pas les cookies par défaut, selon la législation (RGPD), les utilisateurs doivent avoir la possibilité de bloquer la mise en place de cookies et de donner leur consentement explicite s’ils souhaitent autoriser les cookies. Dans ce contexte, on peut identifier une tendance au suivi du web sans cookies.
La vérité est qu’il existe de nombreuses alternatives au suivi alimentées par des cookies tierces. Et elles sont déjà utilisées activement.
1 - Mécanismes basés sur le stockage
Analysons le scénario suivant. Votre client est un éditeur. Il possède 5 sites web différents. Chacun d’entre eux relève d’un domaine distinct. Pour identifier les utilisateurs sans cookies tiers, il doit mettre en œuvre un mécanisme supplémentaire.
Étant donné qu’aucun de ces sites Web ne dispose d’une fonctionnalité de connexion, la seule option est une sorte d’identifiant anonyme. Ainsi, lorsque l’utilisateur entre sur une page, votre ami devra générer un UUIDv4 (UUID totalement aléatoire) et l’enregistrer sur l’appareil du visiteur. Ensuite, chacun de ses sites pourra accéder à cet identifiant chaque fois qu’il sera visité par cet utilisateur spécifique. L’identifiant doit être exactement le même, quel que soit le site qui l’a demandé.
Il existe un large éventail de mécanismes de stockage de données du côté client. Ces techniques de suivi, basées strictement sur un stockage persistant sur l’ordinateur de l’utilisateur, font partie des alternatives les plus connues et les plus utilisées pour suivre les utilisateurs.
Stockage Local : LocalStorage
Le stockage local est un mécanisme, similaire aux cookies, permettant de stocker des objets du côté client.
Les objets (paires | clé-valeur) sont stockés de manière permanente et persistent jusqu’à ce que l’utilisateur ou le site web les supprime. La taille d’un objet peut atteindre 5 Mo, ce qui constitue un avantage considérable par rapport aux cookies.
Stockage des sessions : SessionStorage
Le stockage de session HTML5 est comparable au stockage local, mais les objets stockés ne sont disponibles que pour la fenêtre de navigateur actuelle et sont supprimés lorsque la fenêtre est fermée.
Outre sa temporalité, il peut être utilisé pour restaurer l’identité de l’utilisateur, lorsque celui-ci efface d’autres stockages alors que le site est encore ouvert.
IndexedDB
IndexedDB est une base de données NoSQL qui est intégrée au navigateur. Elle est beaucoup plus puissante que le stockage local. L’inconvénient est qu’IndexedDB est légèrement plus compliqué à utiliser que les cookies ou le stockage local. Bien entendu, des domaines différents ne peuvent pas accéder aux bases de données les unes des autres.
ImmortalDB
Le niveau au dessus. On retrouve plus d’information de ce projet sur son répertoire GitHub.
L’effacement des cookies est une action courante, même pour les utilisateurs non techniques. Et les navigateurs suppriment sans cérémonie IndexedDB, LocalStorage, et/ou SessionStorage sans avertissement sous la pression du stockage.
ImmortalDB est résilient face à de tels événements.
2 - Mécanismes basés sur le caches web
De par sa conception, le cache est utilisé pour stocker des données qui changent rarement. Cette fonctionnalité limite le transfert inutile de données sur le réseau et constitue un élément crucial pour l’infrastructure de maintien de la bande passante.
Les navigateurs auront des difficultés à limiter les mécanismes de suivi basés sur le cache sans que cela ait un impact sur l’expérience de l’utilisateur et les performances de l’internet. Les mécanismes nécessaires à la mise en cache peuvent également servir de stockage pour les données d’identification des utilisateurs.
En-têtes de réponse HTTP : ETag
& Last-Modified
L’objectif de ces en-tête HTTP est d’optimiser les performances et d’améliorer le processus de communication client-serveur.
Le champ ETag est un identifiant pour une version spécifique d’une ressource (par exemple, un hachage du contenu d’un document). Il peut contenir environ 10 kb de données. C’est suffisant pour stocker notre UUID.
Quant à l’en-tête Last-Modified, en théorie, elle devrait contenir DateTime
, mais en pratique, elle accepte aussi n’importe quelle chaîne.
Exemple : Lorsqu’un utilisateur demande une ressource au serveur pour la première fois, l’en-tête de réponse contient les champs ETag et Last-Modified. Lors de la visite suivante du site web, le navigateur envoie les champs If-Modified-Since et If-None-Match dans les en-têtes de la demande.Ces en-têtes contiennent les valeurs des champs Last-Modified et ETag de la ressource précédemment mise en cache. Bingo !
Il est intéressant de noter 2 choses :
- le suivi est possible même pendant une seule session de navigation privée, car le cache est conservé jusqu’à la fermeture de la dernière fenêtre du navigateur.
- ce mécanisme fonctionne sur plusieurs domaines
Pour creuser le sujet des ETag, voici l’article de Nicolas Hinternesch qui explique le fonctionnement par l’exemple.
3 - Relevé de vos empreintes digitales : fingerprinting
Les méthodes basées sur le stockage sont les plus connues et probablement les plus utilisées pour identifier et suivre des personnes en ligne. Cependant, ces méthodes ne suffisent pas toujours. En effet, les utilisateurs peuvent facilement désactiver ou effacer le stockage de leur navigateur. La plupart des navigateurs développent également des méthodes qui limitent ce type de suivi. Il existe bien sûr une alternative, mais elle est un peu plus complexe. Et son nom est … dans le sous-titre de cette partie.
La prise d’empreintes digitales consiste à utiliser des caractéristiques observables pour créer l’ « empreinte digitale » numérique de chaque utilisateur spécifique afin d’identifier ou de ré-identifier ses visiteurs, navigateurs ou appareils. Ce type d’identification consiste en une ou plusieurs valeurs lisibles par le site web directement à partir des appareils de l’utilisateur.
Grâce à un système de relevé d’empreintes digitales, il est possible de :
- détecter les activités frauduleuses
- suivre les utilisateurs dans un contexte inter-domaines
- identifier les utilisateurs pseudonymes
- mettre en corrélation l’activité d’un utilisateur au sein d’une même session et d’une session à l’autre
L’empreinte digitale étant relativement unique et identique pour toutes les origines, plusieurs domaines peuvent être en mesure d’échanger des informations sur le même utilisateur (même si la politique de cookies du navigateur n’autorise pas les cookies tiers). Le suivi par cette méthode est tout à fait transparent pour l’utilisateur et il fonctionne dans certains navigateurs défiant les cookies tiers, car aucune donnée n’est stockée dans des mécanismes de stockage ou de session. Et les utilisateurs n’ont même pas besoin de s’authentifier.
Les différents types d’empreintes digitales
Il existe de nombreux types d’empreintes digitales, tels que :
- Le fingerprinting passif
- Le fingerprinting actif,
- Le browser fingerprinting
- l’empreinte du réseau et de la localisation : Network and location fingerprinting
- l’empreinte du système d’exploitation : Operating system fingerprinting
Mais bien que de nombreuses études montrent que l’empreinte digitale actuelle peut être comparée à l’ancienne par le biais d’un algorithme heuristique avec une précision d’environ 99 %, cette solution n’est pas la plus utilisée.
Si le fingerprinting vous a laissé sur votre faim, IONOS a traité le sujet plus en détail dans son dossier : Browser fingerprinting : le traçage sans cookies
Alternatives aux cookies de tiers, qui sera le grand gagnant ?
Compte tenu de ce qui précède, l’alternative la plus prometteuse aux cookies semble être les en-têtes HTTP basés sur le cache. Toutefois, il subsistera toujours un doute sur la protection de la vie privée dans chacun des scénarios évoqués, quelles que soient les méthodes utilisées par les propriétaires de sites web.
Il y a toujours des nuances et je crois fermement à la légitimité et à l’importance d’une analyse des données sérieuse, pour autant qu’elle soit exécutée dans le respect de la vie privée.
Actuellement, aucun géant du secteur, ou même Google, fort de sa position dominante, n’a su répondre à cette question.
Une chose est sûre. C’est une réponse à 245 milliards de dollars …