Pour cet article, j’ai souhaité faire une autre analyse d’envergure qui cette fois-ci s’attarde sur les technologies de surveillance sur le web. J’ai codé un robot qui s’est connecté aux 1000 sites les plus populaires en France pour récupérer pas mal de données et analyser leur comportement. Le constat est édifiant.

Le site « Data for SEO » met à disposition une liste de 1000 sites web les plus populaires pour 80 pays. Plusieurs sites proposent ce genre de liste mais c’est un des seuls qui le fait gratuitement. Par manque de temps, je n’ai pas spécialement étudié comment est constitué cette liste et, pour la suite de l’article, nous allons considérer qu’elle est juste. Pour chaque site, je me suis connecté sur la page d’accueil via un navigateur programmable, j’ai attendu que la page se charge et j’ai rajouté une dizaine de secondes puis j’ai récupérer les cookies qui avaient été ajoutés et le contenu du stockage local. J’ai aussi enregistré toutes les requêtes faites par le site et les liens que contenait le document HTML. J’ai aussi fait une vérification préalable du fichier robots.txt pour savoir si le site voulait bien qu’un logiciel comme le mien passe sur leur site. Voici les résultats que j’ai pu obtenir :

Sur ce graphique nous pouvons voir que 898 sites sur 1000 déposent au moins un cookie ou des données dans le stockage local du navigateur dès leur chargement. Si, à ce stade, nous ne pouvons pas savoir si l'utilisation de ces technologies est faites légalement où s'il s'agit de surveillance pour de la publicité par exemple, il est tout de même très curieux d'enregistrer des données sur le navigateur de l'utilisateur·rice dès qu'il s'y connecte et sans son consentement.

Sur ce second graphique, j'ai compté les sites pour chaque quantité de cookies différents qu'ils enregistraient. On peut voir que ce n'est pas simplement un ou deux cookies qui sont stocké mais que c'est bien souvent 4 cookies ou plus. La moyenne se situe à 6 cookies avec un maximum à 41 cookies !

Maintenant tentons de savoir à quoi servent ces cookies. J'ai pu identifier les principaux outils qui déposaient des cookies ou du stockage local. Google est en tête de classement avec 467 sites qui laissent des service comme Google Analytics ou AdSense enregistrer des données. Ensuite on retrouve divers services qui sont présents en moins grande quantité.

Est-ce légal de déposer un cookie dès le chargement d'un site ?

De façon théorique, il n'y a aucun problème a utiliser des technologies comme les cookies ou le stockage local pour un site web. Cependant, les usages ont montré qu'ils étaient bien souvent utilisés à des fins de surveillance et de tracking.

Les textes législatifs comme le RGPD imposent différentes règles. On peut par exemple, sans consentement, mesurer l'audience et récolter différentes données anonymes pour analyser le comportement des usagers notamment pour savoir s'il n'y a pas de problèmes techniques sur notre site. Cependant, l'utilisation d'outils tiers comme Google Analytics est proscrit car ces outils ne sont pas uniquement utilisés pour cette fin mais le sont également pour de la publicité par exemple. Pour en savoir plus, la CNIL a publiée un guide et cette dernière a aussi sanctionné des sociétés sur ce sujet.

Conclusion

Le fait que la moitié des sites analysés laissent Google déposer des cookies ou utiliser le stockage local dès leur chargement et sans consentement est tout de même problématique. Si mon analyse ne fait qu'effleurer le sujet, elle révèle tout de même un usage systémique de ces outils qui sont censé être illégaux. Pour moi, nous sommes insuffisamment protégé par nos autorités de régulation (la CNIL en France).

Comme je l'ai dit, je n'ai fait que survoler le sujet dans cet article. Je serais ravi de lire d'autres analyses à partir des données que j'ai récoltées. Cependant, une autre découverte sympa que j'ai faite lors de mon analyse est l'utilisation du cookie "__cf_bm". Ce cookie provient de Cloudflare et, selon un message qui date 2019 dans leur forum, celui-ci n'est censé ne plus être utilisé… et pourtant il l'est, je l'ai vu dans mes données ! Une autre piste d'investigation…

Méthodologie

Retrouvez le code source de mes algorithmes ici : https://framagit.org/DavidLibeau/data-bilan.