Comment l’industrie de l’adtech segmente et cible les internautes

Comment l’industrie de l’adtech segmente et cible les internautes

au microscope

Avatar de l'auteur
Mathilde Saliou

Publié dans

Société numérique

10/07/2023 10 minutes
13

Comment l’industrie de l’adtech segmente et cible les internautes

Le média allemand Netzpolitik.org et son alter ego américain The Markup ont décortiqué un jeu de données du courtier américain Xandr. Dans le document, 650 000 « segments d’audiences », construit en partie grâce à des sociétés européennes, à partir duquel les entreprises publicitaires peuvent viser la population avec une précision redoutable.

Avec l’avènement du numérique, le marché publicitaire s’est fait de plus en plus intrusif. Les technologies publicitaires, classiquement désignées sous le terme d’« adtech », sont autant d’outils et de logiciels qui permettent aux annonceurs de viser leurs audiences avec une finesse difficilement envisageable dans un monde pré-numérique. Cet écosystème est aussi opaque : difficile, pour qui n’y travaille pas, de bien concevoir le type et l’ampleur des données récoltées pour envoyer telle ou telle publicité cohérente avec les centres d’intérêt. 

Courant mai, le média allemand Netzpolitik a publié une longue enquête menée sur les données d’un courtier précis, permettant d’éclairer un peu les pratiques de cet environnement complexe. Avec le média américain The Markup, le journal a décortiqué un jeu de données de Xandr. Créée en 2018, la société était jusqu’en décembre 2021 la propriété du géant américain des télécoms AT&T, avant d'être revendue à Microsoft pour près d’un milliard de dollars.

À l’intérieur du dossier, 651 463 « segments d’audience », des catégories couramment utilisées par les publicitaires pour viser le sous-groupe de population le plus pertinent. « L’ampleur et le détail de cette collecte de données est stupéfiante », écrit le journaliste Ingo Dachwitz. 

Vous cherchez à atteindre un Français qui fréquente des forums ? Pas de problème. Un mineur australien ? Facile. Une femme enceinte en Pologne ? Toujours aussi simple. Xandr fournit aussi bien de l’information aux sociétés qui chercheraient à se renseigner sur leurs concurrents qu’à celles qui veulent diffuser la publicité la plus précise possible, en fonction des applications de jeu que vous aimez ou des journaux que vous lisez.

courtiers, publicité
Capture d'écran du document récupéré par Netzpolitik

Regrouper des internautes du monde entier en fonction d’infimes caractéristiques

Dominée par les géants numériques type Google, Facebook, Alibaba ou Tencent, la taille du marché de la publicité ciblée dépassait les 530 milliards de dollars en 2022. Quand Microsoft a racheté Xandr, il a donc fait un « coup » qui lui a valu à l’époque le qualificatif de « prochain géant de l’AdTech ».

La segmentation d’audience, elle, est une pratique classique du marketing qui consiste à classer des groupes de population en fonction d’éléments communs. Ces segments d’audience fonctionnent comme des boîtes, dans lesquels seraient rangés les profils de chaque personne qui partagerait un trait d’identification commun, que celui-ci concerne des informations démographiques, un comportement de consommation ou un centre d’intérêt. 

Dans le cas de Xandr, le jeu de données analysé par Netzpolitik date de mai 2021. Jusqu’à l’enquête du média allemand, il était disponible en ligne, dans les documentations destinées aux clients de Xandr – supprimé depuis, il reste accessible via Internet Archive.

Xandr

Si une immense partie des segments ne présentent aucune information géographique, une partie comportent des indications de pays (ES pour Espagne, FR pour France), ce qui permet d’affirmer qu’il concerne des populations partout sur le globe. Dans le lot, le plus gros groupe géographique identifiable concerne l’Union Européenne (40 000 segments la mentionnent), suivie des États-Unis. Les pays européens les plus mentionnés sont la France et l’Espagne (autour de 9 000 segments chacun), suivis de l’Allemagne, du Portugal et de l’Italie.

Le document ne contient pas d’information sur le nombre d’entrées contenues dans chaque segment, mais Netzpolitik pointe qu’un seul d’entre eux peut réunir des milliers, voire des millions d’identités différentes. En effet Oracle, l’un des plus gros fournisseurs de Xandr, déclarait en 2016 avoir amassé des données relatives à 5 milliards de personnes, ce qui lui a valu d’être poursuivi par une class action en 2022. 

Oracle, adtech
En 2016, Oracle affirmait détenir des données sur 5 milliards de personne

Pratiques de consommation, démographie et métiers

Il faut bien voir que les données d’identifications ne sont pas des noms écrits en clair, mais plutôt des identifiants liés aux outils des internautes : un identifiant publicitaire lié à un téléphone mobile, à des cookies, des adresses IP… Netzpolitik souligne que peu de ces entreprises acceptent d’être qualifiées de courtiers de données, dans la mesure où leurs clients ont rarement accès aux données brutes, mais plutôt à des réponses précises en fonction des segments de population visées. 
 
Pour autant, la somme d’éléments qu’elles réunissent permet à l’industrie publicitaire de reconnaître une personne à travers l’écosystème du marketing en ligne. Ou à d’autres acheteurs, parmi lesquelles les forces de l’ordre, de reproduire les mêmes entreprises d’identification.

Les segments permettent de cibler les clients d’une marque de voiture ou d’une banque précise, ou encore les abonnés d’un média spécifique – nous avons ainsi repéré des catégories visant des propriétaires de Nissan ou de Mazda, de comptes en banque chez la BNP, ou d’autres qui visent les lectrices et lecteurs du magazine Elle en général, ou semblent pointer plus spécifiquement vers la lecture de ses pages « beauté » ou de ses pages « fitness ». 

Xandr

Surtout, en termes démographiques, une société comme Xandr permet aux publicitaires de viser leur cible en fonction de leur genre, mais aussi de leur statut familial – « jeune maman », « busy moms » (mère occupée), « multiculturel families » (famille multiculturelle) –, parfois associé à des intérêts spécifiques – « parents cinéphiles », « conservative retirees » (retaités conservateurs).

Selon l’analyse de the Markup, après les marques et les caractéristiques démographiques, les segments liés à la profession ou l’industrie forment le troisième groupe le plus fréquent de ce jeu, qu’ils concernent des politiciens, des « compétiteurs de NRJ mobile » ou des « agriculteurs de PACA ». 

Données sensibles au sens du RGPD

Outres ces éléments, le jeu regorge de données sensibles, notamment liés à la santé, avec des catégories anglophones pointant vers des cancers du sein, des cas de dépression, des troubles du sommeil ou l’achat de tests de grossesse. Rappelons encore une fois qu’en dehors de l’Union Européenne, rares sont les pays dotés de lois similaires au Réglement général de protection des données – et que les États-Unis, notamment, n’en ont pas au niveau fédéral.

En version française, nous avons surtout constaté la présence de catégories mentionnant les couvertures santé et assurances - « _fr_lmde_parents_sante », « _france_mutelle_complementaire_sante », « _cnp_esante_french_mars_2017 » (CNP assurances est une compagnie d’assurance). 

Xandr
Capture d'écran du fichier de Xandr.
Impossible de savoir à quoi se rapporte précisément une catégorie comme "agression sexuelle".

Selon les analyses de Netzpolitik et The Markup, le document contient aussi des catégories relatives à la religion (« Muslim », « Jewish »), à l’orientation sexuelle, l’origine ou aux idées politiques (pour ou contre Trump ? Black Lives Matter ? L’avortement ?). Selon l'outil d'analyse de The Markup, on trouve 5 fois plus de résultats relatifs au vote (5640) qu'au fait d'être mère (1384), quand bien même cette catégorie semble très prisée pour des questions de consommation.

Dans certains cas, il n’existe aucune certitude sur le fait que les identifiants de citoyens européens ne sont pas inclus aux segments. 

Des fournisseurs européens

Le jeu récupéré par les deux médias donne aussi des indications sur les prestataires qui permettent ce maillage ultra-fin de données. Netzpolitik rapporte qu’au total, 93 entreprises sont ouvertement listées comme « fournisseuses de données » dans le document de Xandr.

Parmi elles, une majorité est américaine – Oracle compris. Mais plusieurs sont européennes. Le plus gros d’entre eux est la branche européenne de Nielsen, historiquement hollandaise, mais désormais installée à Londres. Nielsen Marketing Cloud est le troisième fournisseur de segments de Xandr en volume. 

Quand on détaille les données relatives à des utilisateurs français, on trouve aussi trace du Français Weborama, société qui se décrit comme « AdTech pionnière de l’IA sémantique », ou du britannique MIQ, qui propose du « marketing mieux connecté »… ou d’Orange Private Data Marketplace, qui semble liée à la marketplace qu’Orange Advertising a ouvert en 2019 avec AppNexus. En Allemagne, Netzpolitik rapporte notamment la présence de Mastercard Allemagne ou de Gutefrage.net (une sorte d’équivalent allemand de Quora). 

Le média a demandé à ce dernier sous quelle forme les données étaient transmises, et s’est entendu répondre qu’aucune information personnelle ou donnée sociodémographique n’était partagée. Pourtant, le texte de la bannière de cookie du site indique que des données comme l’adresse IP, des « identifiant pseudonymisés » ou l’adresse e-mail étaient susceptibles d’être transférés à des tiers. 

Et Ingo Dachwitz, après discussion avez plusieurs autres fournisseurs de données, de pointer ce paradoxe : « D’une part, les données sont censées être suffisamment précises pour garantir un ciblage parfait, d'autre part, les données sont censées être suffisamment générales pour ne pas poser de problèmes de protection des données. »

Netzpolitik a demandé à des représentants de la Fondation polonaise Panoptykon, spécialiste des droits numériques, ou encore de l’EDRi (European Digital Rights), de commenter son analyse du jeu de donnée obtenu de Xandr. Pour eux, celui-ci illustre toute une série de risques posés par l’industrie publicitaire en ligne : des problématiques d’exploitation des vulnérabilités des internautes, de manipulation de leur consommation, d’influence et de distorsion des espaces numériques ou encore de discrimination contre des populations déjà marginalisées.

Membre du Conseil européen pour les libertés civiques, ancien de l’industrie de l’adtech, Johnny Ryan pointe de son côté que les entreprises européennes sont parfaitement intégrées à cette industrie, mais que les standards de cette économie ont été fixés ailleurs : aux États-Unis. Du côté de l’EDRi, Jan Penfrat est assez clair : après plusieurs années de RGPD, on se rend désormais compte qu’il est impossible d’obtenir un consentement valide pour la surveillance publicitaire. « La prochaine commission européenne devrait proposer une interdiction de la surveillance publicitaire en Europe ».

Vous avez des informations sur les pratiques des acteurs français de la publicité ciblée ? Contactez la rédaction. 

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Regrouper des internautes du monde entier en fonction d’infimes caractéristiques

Pratiques de consommation, démographie et métiers

Données sensibles au sens du RGPD

Des fournisseurs européens

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (13)


Aujourd’hui même, la commission Européenne a affirmé que les USA étaient un pays adéquat en termes de transfert de données. On se fout vraiment de nous.


Je suis étrangement peu impressionné. Soit on ne voit que le tout petit sommet de l’iceberg, soit ce Xandr est très en retard. Ou alors c’est un marché spécifique pour l’achat de pannel pour des usages spécifiques au 20 ème siècle.
Ce que je veux dire par là c’est que j’imagine très aisément que Google, par exemple, possède pour chacuns des utilisateurs, un vecteur de dimmenssion X contenant des milliers de sous paramètres qui part inférence peuvent lui permettre de faire un ciblage très largement plus fin que des grandes catégories (par exemple métier lieux visités les x derniers mois intérêt pour les meubles art déco possède un smartphone de moins de plus de 2 ans utilise un VPN possède un compte utilisateur sur le site Tartempion adore Maria Carrey a déménagé il y a moins de 2 mois grand mère à moustache * je m’arrête là). En tout cas, je ne vois rien qui techniquement empêcherait gg d’obtenir ce genre de dataset pour un utilisateur moyen de ces services, soit une grande partie de la population européenne.
Ce que je comprends, c’est que google ne vend pas ces données, mais il peut proposer un ciblage publicitaire de ce niveau là, n’est ce pas ?



ImpactID a dit:


Ce que je comprends, c’est que google ne vend pas ces données, mais il peut proposer un ciblage publicitaire de ce niveau là, n’est ce pas ?




Oui c’est ça.
Google est avant tout une agence publicitaire (pas un vendeur/courtier de données, ni un moteur de recherche ou un webmail :transpi: ).


Ce que je me demande , moi, c’est, in fine, l’efficacité économique de tout ça.
Car si le but est d’afficher des pubs qui seront bloqué par uBlock Origin et envoyer des mails qui seront classifié en spam…
A part faire que des machines dépensent de l’énergie entre elles… ?



J’ai parfois l’impression que les clients des agences de pub achètent des prestations surtout par suivisme et parceque rien d’autre n’existe, et que d’un autre coté les agences de pubs & autres acteurs de ce domaine profite de cette “manne”.
Mais que derrière c’est juste brasser du vent.



Après , que les données récoltés ainsi puissent intéresser d’autres types de public je n’en disconvient pas…


La vérité est que beaucoup n’ont pas de bloqueurs de pubs


Ça ne se limite pas à la publicité sur le Web, ces segments sont aussi utilisés pour de la publicité ciblée à la télévision. Législation oblige, c’est assez nouveau en France, mais ça existe depuis longtemps ailleurs. Comme par exemple Adsmart, chez Sky, qui est capable de substituer des publicités « linéaires » par d’autres ciblées sur le signal en direct des chaines participantes, directement sur le démodulateur satellite:
https://www.adsmartfromsky.co.uk/targeting-your-audience/



C’est à la fois fascinant et effrayant (disclaimer: je bosse pour Sky et ce que je dis n’engage que moi, etc).


Je me demande à quel point ce ciblage par catégories de populations est certain.



Lorsqu’un courtier en données vend la prestation “atteindre les francophones qui votent à droite, qui voyagent une fois par an, et qui possèdent un smartphone de moins de 2 ans”, jusqu’à quel point est-on réellement certain de toucher cette catégorie précise de population ?
Quelles sont les marges d’erreur dans ce ciblage ? Sont-elles raisonnables ?


Il y à clairement une partie d’esbrouffe la dedans.



Zulgrib a dit:


La vérité est que beaucoup n’ont pas de bloqueurs de pubs




Pendant ce temps, quand on est un peu geek, on se pose la question de mettre un filtre DNS à la maison, histoire de ne plus avoir de pub nul part (smartphones, PC, multimedia …)


« La prochaine commission européenne devrait proposer une interdiction de la surveillance publicitaire en Europe »



La conclusion qui rassure un peu mais on compte sur les lobby pour aligner le pognon afin que rien ne change 🫤



Bleep a dit:


On se fout vraiment de nous.




:cap:


2 commentaires à rapprocher :




Bleep a dit:


Aujourd’hui même, la commission Européenne a affirmé que les USA étaient un pays adéquat en termes de transfert de données. On se fout vraiment de nous.



R4VEN a dit:


« La prochaine commission européenne devrait proposer une interdiction de la surveillance publicitaire en Europe »



La conclusion qui rassure un peu mais on compte sur les lobby pour aligner le pognon afin que rien ne change 🫤




Rien de plus à comprendre :mdr:


Etant le moins possible identifiable en ligne, même si à cause de mon boulot microsoft et google ont pu associer mon téléphone à mon vrai nom (joie du MFA), je serais réellement curieux de voir les données de mon profil dans ce type de société pour voir si cette discipline est vraiment utile !!
Pour y retrouver le plaisir mit en place y a longtemps : changer une lettre de mon nom ou prénom lors de la prise de chaque abonnement pour voir qui vend ses données à qui quand je recevais de la pub, j’avais fait le même principe avec des mails à un moment :)