Comment l’industrie de l’adtech segmente et cible les internautes

au microscope
Comment l’industrie de l’adtech segmente et cible les internautes
Crédits : Joshua Earle/Unsplash

Le média allemand Netzpolitik.org et son alter ego américain The Markup ont décortiqué un jeu de données du courtier américain Xandr. Dans le document, 650 000 « segments d’audiences », construit en partie grâce à des sociétés européennes, à partir duquel les entreprises publicitaires peuvent viser la population avec une précision redoutable.

Avec l’avènement du numérique, le marché publicitaire s’est fait de plus en plus intrusif. Les technologies publicitaires, classiquement désignées sous le terme d’« adtech », sont autant d’outils et de logiciels qui permettent aux annonceurs de viser leurs audiences avec une finesse difficilement envisageable dans un monde pré-numérique. Cet écosystème est aussi opaque : difficile, pour qui n’y travaille pas, de bien concevoir le type et l’ampleur des données récoltées pour envoyer telle ou telle publicité cohérente avec les centres d’intérêt. 

Courant mai, le média allemand Netzpolitik a publié une longue enquête menée sur les données d’un courtier précis, permettant d’éclairer un peu les pratiques de cet environnement complexe. Avec le média américain The Markup, le journal a décortiqué un jeu de données de Xandr. Créée en 2018, la société était jusqu’en décembre 2021 la propriété du géant américain des télécoms AT&T, avant d'être revendue à Microsoft pour près d’un milliard de dollars.

À l’intérieur du dossier, 651 463 « segments d’audience », des catégories couramment utilisées par les publicitaires pour viser le sous-groupe de population le plus pertinent. « L’ampleur et le détail de cette collecte de données est stupéfiante », écrit le journaliste Ingo Dachwitz. 

Vous cherchez à atteindre un Français qui fréquente des forums ? Pas de problème. Un mineur australien ? Facile. Une femme enceinte en Pologne ? Toujours aussi simple. Xandr fournit aussi bien de l’information aux sociétés qui chercheraient à se renseigner sur leurs concurrents qu’à celles qui veulent diffuser la publicité la plus précise possible, en fonction des applications de jeu que vous aimez ou des journaux que vous lisez.

courtiers, publicité
Capture d'écran du document récupéré par Netzpolitik

Regrouper des internautes du monde entier en fonction d’infimes caractéristiques

Dominée par les géants numériques type Google, Facebook, Alibaba ou Tencent, la taille du marché de la publicité ciblée dépassait les 530 milliards de dollars en 2022. Quand Microsoft a racheté Xandr, il a donc fait un « coup » qui lui a valu à l’époque le qualificatif de « prochain géant de l’AdTech ».

La segmentation d’audience, elle, est une pratique classique du marketing qui consiste à classer des groupes de population en fonction d’éléments communs. Ces segments d’audience fonctionnent comme des boîtes, dans lesquels seraient rangés les profils de chaque personne qui partagerait un trait d’identification commun, que celui-ci concerne des informations démographiques, un comportement de consommation ou un centre d’intérêt. 

Dans le cas de Xandr, le jeu de données analysé par Netzpolitik date de mai 2021. Jusqu’à l’enquête du média allemand, il était disponible en ligne, dans les documentations destinées aux clients de Xandr – supprimé depuis, il reste accessible via Internet Archive.

Xandr

Si une immense partie des segments ne présentent aucune information géographique, une partie comportent des indications de pays (ES pour Espagne, FR pour France), ce qui permet d’affirmer qu’il concerne des populations partout sur le globe. Dans le lot, le plus gros groupe géographique identifiable concerne l’Union Européenne (40 000 segments la mentionnent), suivie des États-Unis. Les pays européens les plus mentionnés sont la France et l’Espagne (autour de 9 000 segments chacun), suivis de l’Allemagne, du Portugal et de l’Italie.

Le document ne contient pas d’information sur le nombre d’entrées contenues dans chaque segment, mais Netzpolitik pointe qu’un seul d’entre eux peut réunir des milliers, voire des millions d’identités différentes. En effet Oracle, l’un des plus gros fournisseurs de Xandr, déclarait en 2016 avoir amassé des données relatives à 5 milliards de personnes, ce qui lui a valu d’être poursuivi par une class action en 2022. 

Oracle, adtech
En 2016, Oracle affirmait détenir des données sur 5 milliards de personne

Pratiques de consommation, démographie et métiers

Il faut bien voir que les données d’identifications ne sont pas des noms écrits en clair, mais plutôt des identifiants liés aux outils des internautes : un identifiant publicitaire lié à un téléphone mobile, à des cookies, des adresses IP… Netzpolitik souligne que peu de ces entreprises acceptent d’être qualifiées de courtiers de données, dans la mesure où leurs clients ont rarement accès aux données brutes, mais plutôt à des réponses précises en fonction des segments de population visées. 
 
Pour autant, la somme d’éléments qu’elles réunissent permet à l’industrie publicitaire de reconnaître une personne à travers l’écosystème du marketing en ligne. Ou à d’autres acheteurs, parmi lesquelles les forces de l’ordre, de reproduire les mêmes entreprises d’identification.

Les segments permettent de cibler les clients d’une marque de voiture ou d’une banque précise, ou encore les abonnés d’un média spécifique – nous avons ainsi repéré des catégories visant des propriétaires de Nissan ou de Mazda, de comptes en banque chez la BNP, ou d’autres qui visent les lectrices et lecteurs du magazine Elle en général, ou semblent pointer plus spécifiquement vers la lecture de ses pages « beauté » ou de ses pages « fitness ». 

Xandr

Surtout, en termes démographiques, une société comme Xandr permet aux publicitaires de viser leur cible en fonction de leur genre, mais aussi de leur statut familial – « jeune maman », « busy moms » (mère occupée), « multiculturel families » (famille multiculturelle) –, parfois associé à des intérêts spécifiques – « parents cinéphiles », « conservative retirees » (retaités conservateurs).

Selon l’analyse de the Markup, après les marques et les caractéristiques démographiques, les segments liés à la profession ou l’industrie forment le troisième groupe le plus fréquent de ce jeu, qu’ils concernent des politiciens, des « compétiteurs de NRJ mobile » ou des « agriculteurs de PACA ». 

Données sensibles au sens du RGPD

Outres ces éléments, le jeu regorge de données sensibles, notamment liés à la santé, avec des catégories anglophones pointant vers des cancers du sein, des cas de dépression, des troubles du sommeil ou l’achat de tests de grossesse. Rappelons encore une fois qu’en dehors de l’Union Européenne, rares sont les pays dotés de lois similaires au Réglement général de protection des données – et que les États-Unis, notamment, n’en ont pas au niveau fédéral.

En version française, nous avons surtout constaté la présence de catégories mentionnant les couvertures santé et assurances - « _fr_lmde_parents_sante », « _france_mutelle_complementaire_sante », « _cnp_esante_french_mars_2017 » (CNP assurances est une compagnie d’assurance). 

Xandr
Capture d'écran du fichier de Xandr.
Impossible de savoir à quoi se rapporte précisément une catégorie comme "agression sexuelle".

Selon les analyses de Netzpolitik et The Markup, le document contient aussi des catégories relatives à la religion (« Muslim », « Jewish »), à l’orientation sexuelle, l’origine ou aux idées politiques (pour ou contre Trump ? Black Lives Matter ? L’avortement ?). Selon l'outil d'analyse de The Markup, on trouve 5 fois plus de résultats relatifs au vote (5640) qu'au fait d'être mère (1384), quand bien même cette catégorie semble très prisée pour des questions de consommation.

Dans certains cas, il n’existe aucune certitude sur le fait que les identifiants de citoyens européens ne sont pas inclus aux segments. 

Des fournisseurs européens

Le jeu récupéré par les deux médias donne aussi des indications sur les prestataires qui permettent ce maillage ultra-fin de données. Netzpolitik rapporte qu’au total, 93 entreprises sont ouvertement listées comme « fournisseuses de données » dans le document de Xandr.

Parmi elles, une majorité est américaine – Oracle compris. Mais plusieurs sont européennes. Le plus gros d’entre eux est la branche européenne de Nielsen, historiquement hollandaise, mais désormais installée à Londres. Nielsen Marketing Cloud est le troisième fournisseur de segments de Xandr en volume. 

Quand on détaille les données relatives à des utilisateurs français, on trouve aussi trace du Français Weborama, société qui se décrit comme « AdTech pionnière de l’IA sémantique », ou du britannique MIQ, qui propose du « marketing mieux connecté »… ou d’Orange Private Data Marketplace, qui semble liée à la marketplace qu’Orange Advertising a ouvert en 2019 avec AppNexus. En Allemagne, Netzpolitik rapporte notamment la présence de Mastercard Allemagne ou de Gutefrage.net (une sorte d’équivalent allemand de Quora). 

Le média a demandé à ce dernier sous quelle forme les données étaient transmises, et s’est entendu répondre qu’aucune information personnelle ou donnée sociodémographique n’était partagée. Pourtant, le texte de la bannière de cookie du site indique que des données comme l’adresse IP, des « identifiant pseudonymisés » ou l’adresse e-mail étaient susceptibles d’être transférés à des tiers. 

Et Ingo Dachwitz, après discussion avez plusieurs autres fournisseurs de données, de pointer ce paradoxe : « D’une part, les données sont censées être suffisamment précises pour garantir un ciblage parfait, d'autre part, les données sont censées être suffisamment générales pour ne pas poser de problèmes de protection des données. »

Netzpolitik a demandé à des représentants de la Fondation polonaise Panoptykon, spécialiste des droits numériques, ou encore de l’EDRi (European Digital Rights), de commenter son analyse du jeu de donnée obtenu de Xandr. Pour eux, celui-ci illustre toute une série de risques posés par l’industrie publicitaire en ligne : des problématiques d’exploitation des vulnérabilités des internautes, de manipulation de leur consommation, d’influence et de distorsion des espaces numériques ou encore de discrimination contre des populations déjà marginalisées.

Membre du Conseil européen pour les libertés civiques, ancien de l’industrie de l’adtech, Johnny Ryan pointe de son côté que les entreprises européennes sont parfaitement intégrées à cette industrie, mais que les standards de cette économie ont été fixés ailleurs : aux États-Unis. Du côté de l’EDRi, Jan Penfrat est assez clair : après plusieurs années de RGPD, on se rend désormais compte qu’il est impossible d’obtenir un consentement valide pour la surveillance publicitaire. « La prochaine commission européenne devrait proposer une interdiction de la surveillance publicitaire en Europe ».

Vous avez des informations sur les pratiques des acteurs français de la publicité ciblée ? Contactez la rédaction. 

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !