• 15 mai 2021 20h14

Les versions des navigateurs transportent en moyenne 10,5 bits d’informations d’identification

ByMarc

Nov 27, 2020

Chaque fois que vous visitez une page web, votre navigateur envoie au site web un en-tête « User Agent » indiquant précisément le système d’exploitation et le navigateur web que vous utilisez. Cette information pourrait aider à distinguer les internautes les uns des autres, car ces versions diffèrent, souvent considérablement, d’une personne à l’autre. Nous avons récemment mené une expérience pour voir dans quelle mesure ces informations pouvaient être utilisées pour suivre les personnes (par exemple, si quelqu’un supprime les cookies de son navigateur, l’agent utilisateur, seul ou combiné à d’autres détails, serait-il suffisamment unique pour permettre à un site de le reconnaître et de recréer son ancien cookie ?)

L’expérience que nous avons menée jusqu’à présent a montré que la chaîne de l’agent utilisateur du navigateur comporte généralement 5 à 15 bits d’informations d’identification (environ 10,5 bits en moyenne). Cela signifie qu’en moyenne, seule une personne sur environ 1 500 (210,5) aura le même agent utilisateur que vous. En soi, ce n’est pas suffisant pour recréer des cookies et suivre parfaitement les gens, mais combiné à un autre détail comme la géolocalisation à un code postal particulier ou l’installation d’un plugin de navigateur peu commun, la chaîne d’agent utilisateur devient un véritable problème de confidentialité.

Agents utilisateurs : Un exemple de caractéristiques de navigateur doublées d’outils de traçage
Lorsque nous analysons la vie privée des internautes, nous nous concentrons généralement sur les comptes d’utilisateur, les cookies et les adresses IP, car ce sont les moyens habituels par lesquels une demande adressée à un serveur Web peut être associée à d’autres demandes et/ou liée à un être humain, un ordinateur ou un réseau local.

Les conseils habituels pour améliorer votre vie privée lorsque vous surfez sur le web peuvent inclure le blocage ou la suppression des cookies (et des supercookies), et l’utilisation de VPN , serveurs proxy ou d’outils comme Tor pour cacher votre adresse IP.

Il n’est pas évident qu’un agent utilisateur présente un risque similaire à celui d’un cookie de suivi unique. Après tout, les cookies ont été conçus, en partie, pour aider les sites web à distinguer et à reconnaître les navigateurs individuels, ce qui n’est pas le cas des agents utilisateurs. Et il peut y avoir des millions de personnes qui utilisent le même navigateur et le même système d’exploitation que vous. Mais examinons la question de plus près. Une chaîne d’agent utilisateur typique ressemble à quelque chose comme ceci :

Mozilla/5.0 (Windows ; U ; Windows NT 5.1 ; fr-FR ; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 (.NET CLR 3.5.30729)
En fait, il s’agit de la chaîne d’agent utilisateur la plus courante parmi les navigateurs : Firefox fonctionnant sous Windows . Remarquez que les versions du système d’exploitation et du navigateur sont extrêmement spécifiques et que l’agent utilisateur inclut également la langue préférée de l’utilisateur. De nombreux éléments peuvent varier à l’intérieur de cette chaîne, et ces variations peuvent être utilisées pour distinguer et suivre les personnes lorsqu’elles naviguent sur le Web.

Nos résultats à ce jour sur l’identifiabilité de l’agent utilisateur

Nous avons mené une expérience pour mesurer précisément le degré d’identification des chaînes de l’agent utilisateur parmi un échantillon anonyme de 36 heures de demandes adressées à un site Web.

Il y a plusieurs faits remarquables à propos de cet ensemble de données. Dans l’ensemble, il est étonnant de constater à quel point les chaînes d’agents utilisateurs sont identifiables. 10,5 bits représentent environ un tiers du total des informations nécessaires pour identifier un internaute.

Il est également surprenant de constater que des plates-formes comme Firefox et Ubuntu, dont la pénétration du marché est plus faible, sont en moyenne comparables, voire moins identifiantes, que Windows et Microsoft Internet Explorer, qui disposent d’une très large base d’utilisateurs et devraient donc avoir de plus grandes foules dans lesquelles se cacher. Cela peut s’expliquer en partie par le fait que les visiteurs du site sont surreprésentés dans les premiers groupes, mais il est également clair que cela est dû en grande partie au fait qu’Internet Explorer présente un niveau de variation très élevé dans ses chaînes d’agent utilisateur, avec des exemples typiques ressemblant à ceci :

Mozilla/4.0 (compatible ; MSIE 8.0 ; Windows NT 6.0 ; Trident/4.0 ; SLCC1 ; .NET CLR 2.0.50727 ; Media Center PC 5.0 ; .NET CLR 3.5.30729 ; .NET CLR 3.0.30618)

Toutes les différentes versions des bibliothèques et des composants fonctionnent essentiellement comme des jetons de suivi partiels.