[Enquête] Les escrocs du scraping

Ça chatouille là où ça gratouille ?

Le webscraping, ou récupération de données sur le web, est une technique automatisée qui consiste à extraire des informations à partir du contenu de sites web. Cela se fait en utilisant des logiciels ou des scripts pour collecter des données à partir des pages web, généralement dans le but d'analyser ces données, de les stocker ou de les utiliser à d'autres fins.

Le webscraping peut être utilisé pour extraire une variété d'informations, telles que des données de prix, des avis de produits, des actualités, des données météorologiques… Mais également dans le but de faire de la prospection commerciale ainsi que pour inférer ou reconstituer des données (un exemple au hasard : Boursorama). Et dans ce domaine, il est facile de friser la légalité (ou l'illégalité) sans jamais l’atteindre.

Si dans le cas de Boursorama les clients étaient incités à donner leur identifiant et mot de passe, la banque en ligne devait ensuite récupérer les informations directement depuis le site des impôts, il n'y a pas a priori d'API disponible.

Prospection personnelle ou professionnelle

Partons d’une anecdote personnelle. J’ai commencé à recevoir des messages à caractère professionnel sur une adresse non professionnelle m’appartenant aussi. Rien de très surprenant a priori, mais il y avait malgré tout un fait curieux : cela se répétait régulièrement. Il y avait donc quelque chose qui associait mon activité professionnelle à un mail sans lien avec celle-ci. Premier réflexe : vérifier s’il s’agissait d’un pompage éhonté et mal ficelé des données personnelles dont il me fallait trouver la provenance, et demander a minima la correction ou au mieux la suppression.

J’ai interrogé plusieurs émetteurs de ces mails en brandissant la menace du couperet des 4 % du chiffre d'affaires mondial, et tous m’ont juré mordicus avoir récupéré cette adresse en toute légalité et que c’était celle que j’utilisais comme adresse de contact professionnel. Je leur répondais que c’était faux et qu’un simple coup d’œil aurait suffi à constater que le nom de domaine associé n’était pas le bon. La structure des adresses mails pro étant souvent d’une simplicité édifiante (genre nom + prénom + nom de domaine de la boîte). Je n’ai guère insisté les premières fois, mais la répétition de ces envois me fit comprendre qu’il fallait y mettre de l’ordre avant que cela ne dégénère.

Démarrons notre (petite) enquête. Mes interlocuteurs m’ont affirmé qu’il s’agissait de mon adresse de contact sur LinkedIn. Sauf que oui, mais non : après vérification, j’utilise bien la bonne adresse professionnelle sur ce réseau. Je ne suis pas encore fou : j’ai bien renseigné l’adresse correctement et je n’ai jamais indiqué l’adresse non professionnelle.

Pas de chance : mon adresse pro est vérifiée sur LinkedIn et c’est la bonne !

Première hypothèse et première tâche : l’adresse aurait été trouvée via mon profil, et l’objectif sera donc de retrouver toutes les adresses utilisées sur LinkedIn. Si le paramétrage reste plus simple que celui de Facebook, il faut quand même chercher.

Sur le profil ? Rien. Respect du RGPD oblige (je suppose), il n’est pas possible d’accéder directement à votre adresse mail depuis votre page de profil. On ne trouve que les liens des sites web que vous voulez bien partager. Or aucun ne correspond avec l’adresse mail utilisée par les prospecteurs.

On peut vérifier sur ces deux écrans l'adresse mail. Pas de trace de la mauvaise adresse.

Encore une fois : affichées ou non, les adresses mails renseignées sont correctes et aucune trace de la « mauvaise ». Note : je floute les données, bien qu’elles soient publiques : ceux qui voudront les voir devront faire l’effort de regarder par eux-mêmes.

Un coup d’œil aux archives

Plutôt respectueux du RGPD, LinkedIn vous offre la possibilité de charger toutes les données vous concernant d’un simple clic, en allant dans « Préférences et Confidentialité » puis « Confidentialité des données ».

Demandez « Obtenez une copie de vos données », choisissez ce que vous voulez (la totalité, par exemple). Ça tombe bien, je veux tout. Il est précisé que cela peut prendre un certain temps, mais dans mon cas nous sommes restés bien en dessous des 24 heures annoncées, les premières données arrivant au bout d’une heure, et le reste quelques heures plus tard.

Au final, on a bien tout dans un format texte, mais aucune trace de l’adresse non professionnelle. Il y a plein d'autres choses intéressantes, mais rien de surprenant. Pour ceux que cela intéresse, vous pouvez par exemple voir le poste actuel de toutes vos relations, en parcourant le fichier Connections.csv mais sans aucune adresse mail, pas question de vous faire une liste de diffusion gratuite !

En quête de statut

Cette « mauvaise » adresse mail n’est toutefois pas tombée du ciel : elle correspond à une activité bien précise, et je me rappelle l’avoir ajoutée brièvement puis enlevée de mon profil. Nous avons donc une autre piste : une adresse mail ayant existé à un moment sur LinkedIn, mais ayant été effacée depuis. Une extraction aurait-elle été faite pile au moment où elle était présente ? Ou y a-t-il une autre explication ?

Nous avons demandé au réseau s’il était possible qu’il existe des enregistrements archivés ou dans un statut de type « archivé » et non présent dans cette extraction. Leur réponse est formelle : non.

Il faut alors creuser du côté des émetteurs des mails et, en questionnant à nouveau un de mes interlocuteurs, j’apprends l’information essentielle que j’attendais : pour retrouver mon adresse, l'un d'entre eux a utilisé un plug-in, édité par skrapp.io. Un coup d’œil sur le site et tout s’éclaire : « Easily find professional email addresses » (« trouvez facilement une adresse mail professionnelle »).

scraping

Trouvez une adresse, oui, mais pour la précision (“accuracy”) il y a de quoi redire...

Contact est pris avec l’éditeur du plugin pour savoir comment sont gérées les informations issues de LinkedIn (réponse promise en 1 heure). Je reçois rapidement un mail, en effet, me demandant de noter le support (« satisfait » ou « non satisfait »). Non, je n’ai pas supprimé un paragraphe de cet article par erreur : zéro réponse. Je vérifie sur le site : ticket fermé, aucun commentaire. Logiquement, je clique sur « Bad, I’m unsatisfied ». Je réessaye, je reformule, même résultat. Pas très causant, l’éditeur...

Grattons tant qu’on peut

Nous ne pouvons que conjecturer le fonctionnement de ce plugin d’après nos observations. Il semble qu’il fasse du scraping sur LinkedIn, et qu’il propose une « probabilité » pour les différentes combinaisons possibles qu’il retrouve pour reconstituer l’adresse mail à partir du nom, prénom, nom de domaine, agrémenté des caractères point, souligné, etc.

Or sur ma page LinkedIn, il y a le logo de mon employeur, mais aussi celui de mon école d’ingénieur (où j’ai encore un compte, ou plutôt un alias redirigeant vers une adresse personnelle). Et dans mon cas, l’adresse mail mise en avant par le plugin est valide, mais elle pointe sur cette adresse scolaire et non l’adresse professionnelle officielle. Vous vous en doutez, il est moins cher de procéder ainsi que de payer une licence à LinkedIn pour avoir la possibilité de contacter un membre du réseau.

Est-ce légal ?

Il y a deux aspects à examiner pour un tel traitement : est-ce que cela respecte la législation, notamment le RGPD, et est-ce que cela respecte les conditions d’utilisation de LinkedIn ?

Côté LinkedIn, c’est simple : cela contrevient à leurs conditions d’utilisation, et cela nous a été confirmé par l’assistance utilisateur. Donc skrapp.io n’a pas le droit de parcourir les pages de LinkedIn pour en tirer de l’information.

Extrait des CGU de LinkedIn

Côté RGPD, le règlement est clair, mais l’application est plus complexe. Nous avons pu échanger avec la CNIL, et voici les principaux éléments :

« La reconstitution de l’adresse électronique d’une personne physique à partir de ses nom, prénom et de son affiliation à un organisme par un logiciel dédié est effectivement une opération de traitement de données personnelles au sens du RGPD. Cela est vrai indépendamment du caractère professionnel de cette adresse ou de la durée de traitement de ces données. »

Il s’agit bien d’un traitement de données personnelles, nous sommes donc fondés pour demander des explications (droit de consultation, de modification, ou de retrait). Mais la difficulté est de qualifier le responsable de traitement, et la CNIL n’a pas (pour l’instant) eu à statuer sur un tel cas :

« Pour savoir s’il est possible d’exercer ses droits directement auprès de l’éditeur du plugin, il faut donc déterminer si ce dernier agit en tant que responsable de son traitement. À noter que s’il n’agit qu’en tant que fournisseur d’une solution (sans traiter lui-même de données), […] il conviendra d’exercer ses droits auprès de chaque organisme utilisant le logiciel. »

« […] la CNIL n’ayant pas, à ce jour, eu l’occasion de procéder à une analyse de ce dispositif en particulier, elle ne saurait ni se prononcer sur l’applicabilité du RGPD ni sur la qualification de l’éditeur en tant que responsable du traitement. »

Pas de jurisprudence en la matière, donc. Cela nous met dans une situation paradoxale : nos droits seraient à exercer auprès des utilisateurs du plugin (ceux qui l’utilisent pour retrouver des adresses mails) alors que c’est l’éditeur du plugin qui enfreint les conditions d’utilisation de LinkedIn. Sachant que skrapp.io ne semble stocker aucune information, notre droit d’opposition devra donc être demandé à tous les utilisateurs du plugin ! Pas pratique.

À propos de la prospection commerciale

Il faut rappeler que la prospection commerciale professionnelle bénéficie d’un régime plus souple que la prospection simple, mais qu’elle reste encadrée, comme la CNIL l’expose clairement ici : la prospection commerciale par courrier électronique.

Pour les pros, la CNIL nous redit :

« Il est possible de se passer de consentement pour de tels traitements, [mais] certaines conditions doivent pour cela être remplies. Le responsable du traitement doit en particulier s’assurer du caractère professionnel de la prospection. »

Notamment, le mail doit porter sur l’activité professionnelle visée, ne doit pas être disproportionnée, et le destinataire doit pouvoir s’y opposer simplement et sans justification.

Et que fait LinkedIn ?

Hélas pas grand-chose. Il est de leur responsabilité d’entamer une action judiciaire pour le non-respect de ses CGU, mais leur service clientèle semble ne s’intéresser qu’aux membres du réseau. Or l’écriture d’un plugin de scraping ne nécessite pas obligatoirement d’être membre du réseau.

En conclusion, l’éditeur du plugin a encore de beaux jours devant lui, ainsi que tous ses congénères gratteurs, car ce procédé déporte la responsabilité (au sens RGPD) vers les utilisateurs. Et tant que les sites web ne poursuivront pas juridiquement les scrapeurs, ce sont les utilisateurs finaux qui devront s’assurer que leur usage est légal, et de ce côté-là, bien peu de gens lisent les CGU avec précaution (à part nous) !

Le scraping en soi n'est pas interdit, mais d'une part il peut contrevenir aux CGU des sites visés, d'autre part la responsabilité de l'utilisation des données incombe à l'utilisateur du plugin. Enfin le scraping utilisant des identifiants de connexion, encore très utilisé notamment dans le monde bancaire (voir l’exemple de Boursorama), continue à flirter avec la légalité.

Commentaires (52)

Fab'z Abonné

Le 26/09/2023 à 11h 50

Je me dis que j’aimerais bien avoir mon propre serveur de messagerie parfois. Une idée intéressante trouvée dans les commentaires était d’avoir autant d’alias différents que de service utilisé. Comme ça on peu voir d’ou ça fuite, et on change d’alias pour le service après. Et puis se faire ses propres blacklist IP c’est moins chiant que j’aurais cru ^^ chronophage quand même mais ça reste satisfaisant. (Sous réserve d’avoir les équipements pour faire ça bien)

Un truc identique pour la téléphonie aurait été pas mal non plus.

XSBen Abonné

Le 26/09/2023 à 11h 58

(reply:2155145:Fab’z)

J’ai mon domaine chez Migadu. Tu peux créer des alias wildcard (par ex pro.*@exemple.com).
Et après le point tu met par le nom du site sur lequel tu renseigne ton email.

Gandi le propose également, mais je suis parti au vu des changements tarifaires récent.

jeryagor Abonné

Le 26/09/2023 à 14h 05

#2.1

J’utilise ce genre d’approche aussi.
Un peu pénible quand il faut envoyer un email depuis un de ces alias par contre, il faut aller “créer” l’adresse en question avant de pouvoir l’utiliser.

Sachifus

Le 26/09/2023 à 12h 06

Avec Google/Gmail, par exemple, on peut créer un nombre illimité d’alias en ajoutant simplement “+quelquechose” avant l’arobase. Par exemple, si l’adresse “principale” est [email protected], on peut créer des alias de la manière suivante pour chaque service :

[email protected]

Bon, après, faut avoir envie d’utiliser Gmail, ça c’est une autre histoire… mais en tout cas c’est facile :)

pelotio Abonné

Le 26/09/2023 à 12h 15

#3.1

C’est ce que je fais avec mon @ gmail pour un certain nombre de site “non sensible”.
Ça marche plutôt bien, sauf avec certains sites qui considèrent le + comme invalide.

dedalum Abonné

Le 26/09/2023 à 12h 18

#3.2

Grace à des commentaries sur NExtInpact, j’ai decouvers que Infomaniak aussi, (que j’utilise).
Bien moins datavore (a mon avis?) que celui mentionné…

Jarodd Abonné

Le 26/09/2023 à 15h 08

#3.6

dedalum

Infomaniak permet de gérer l’alias (avec le “+”) ou bien directement mettre le site en username (avant le “@”), par exemple [email protected]. Il suffit ensuite de récupérer les e-mails reçus sur catchall@ car cette adresse attrape tout ce qui est envoyé sur ce domaine (comme son nom l’indique). Attention ça attrape aussi les spams :) (et aussi sur des usernames que vous n’avez même pas créé puisque par défaut toute adresse est valide)

La difficulté est qu’il faut changer l’expéditeur à chaque réponse, car si on ne fait pas gaffe, on répond avec “catchall”. À noter que leur nouvelle application mobile ne permet pas de modifier l’expéditeur d’une réponse. Thunderbird (en desktop) et FairEmail (en mobile) permettent cette édition. Ça permet de savoir qui a fait mumuse avec l’e-mail qu’on leur a donné.

La structure des adresses mails pro étant souvent d’une simplicité édifiante (genre nom + prénom + nom de domaine de la boîte).

Pour le perso aussi, ça fonctionne.
[email protected] + nom.prenom, mettre ou enlever le point : avec ces 4 exemples on doit bien avoir 99% des adresses des gens.

Ça a failli me coûter une arnaque au CPF d’ailleurs, jusqu’à que l’escroc me dise “je vous ai envoyé l’e-mail de validation sur ‘[email protected]’ : raté, je suis dans le 1% qui n’utilise pas ce genre d’adresse avec mon compte sur les sites .gouv.fr, c’est ce qui m’a mis la puce à l’oreille :) Mais ça doit fonctionner avec la plupart des gens. Bien pratique pour monter une arnaque sans avoir l’adresse de la personne (même pas besoin de scraper ici !).

pamputt Abonné

Le 26/09/2023 à 12h 33

#3.3

Le « problème » avec cette technique, c’est qu’on peut penser que les scrappeurs retirent le + et ce qui se trouve après.
Idem, si l’adresse fait partie d’une fuite de données, les hackers peuvent facilement retirer ce qui se trouve après le « + »

Triton Abonné

Le 26/09/2023 à 12h 51

#3.5

pamputt

Au vu des spams reçus, certains scrappeurs coupe après le ‘+’ (ils cherchent sans doute le @ et ce qu’il y a autour donc s’arrêtent en arrivant au ‘+’).

Thoscellen Abonné

Le 26/09/2023 à 12h 42

#3.4

C’est parfois bloqué par les sites (d’avoir un signe ‘+’), et des sites sont bien au courant et commencent aussi a “retirer” la partie avec le +. L’alias aléatoire semble être une bonne option

jerome_d Abonné

Le 26/09/2023 à 12h 16

ce n’est pas exactement identique à un alias, mais il est assez courant que tout ce qui est après un ‘+’ dans l’adresse e-mail soit ignorée (à dessein).
C’est notamment le cas chez gmail il me semble.

Par exemple, avec une adresse [email protected] (je suis sur qu’elle existe ….), [email protected] arrivera sur la même boite mail.

Ce n’est pas vraiment équivalent à un alias, étant donné qu’on ne peux pas supprimer cette adresse [email protected]. Mais ça peut permettre d’identifier la source de la fuite si on met un label différent pour chaque site, et ça permet de mettre des règles de filtrage assez simples pour envoyer certains courriels directement à la corbeille.

edit: ah, tu as été plus rapide que moi Sachifus :-)

Le 26/09/2023 à 13h 00

#4.1

Plein d’idées sympa effectivement. L’avantage d’avoir un serveur de messagerie est de pouvoir aller encore plus loin. En cas de compromission de l’adresse de base (Dans le même contexte que dans l’article) on peu recréer sa boîte mail et rediriger les anciens alias encore valide. Avoir des noms qui n’ont rien à voir entre eux. Et puis l’accès aux logs.

J’aime bien tenter de traquer les spams au taf. DNS dump sur les IP qui envoie, on fait une corrélations avec les domaines aléatoires qui viennent des mêmes pools d’IP et hop. Ça provient “souvent” des pays du BRICS ou de paradis fiscaux. Et quand on travaille pour des entreprises qui sortent pas de la region, on a le luxe de pouvoir blacklister des pays entier ^^

Bon après j’avais commencé un truc du genre il y a des années comme beaucoup de monde je pense, avoir plusieurs adresses mail. J’ai du laposte, orange, outlook, gmail, aol, custom, … Un peu moins de 10 boîtes au total mais faut les gérer individuellement :/

Le principe d’un alias c’est pas de pouvoir mettre n’importe quoi dans le nom et que ça pointe sur la même boîte ?

Naej Abonné

Le 26/09/2023 à 12h 26

J’utilise mon propre nom de domaine et le compte email associé depuis plusieurs années afin de me débarrasser de ces risques.

L’astuce c’est d’utiliser des alias crées pour un but spécifique (genre [email protected], [email protected], [email protected], etc).

ça permet un bon tri des sujets (une adresse mail = un “sujet” = un répertoire dédié dans Thunderbird, eux même classé par niveau d’importance) et surtout de détecter rapidement celui qui ne suit pas les règles et revend votre email… Si ça arrive, je n’ai qu’a détruire l’alias et fin du spam.

Mais ça demande du temps, un peu d’argent (~10€/an) et surtout de l’organisation (à chaque fois que j’ouvre un vieux site, je regarde l’email et le met à jour avec une adresse perso).

J’ai commencé le mouvement après le piratage du PlayStation Networks en 2011 (où j’ai pris conscience du nombre de comptes impactés par l’unique email et password que j’utilisais alors ^^) et j’ai bien 80% des sites et organismes sur ce nouveau modèle aujourd’hui.

Associé avec une bonne gestion des mdp unique et sauvegardé en local (car j’utilise le container vaultwarden sur 2 raspberry pi,un en master, un en backup) qui stock l’email, le mot de passe unique et l’url, ça porte ces fruits. Le tout accessible uniquement via mon propre VPN installé sur mon router (open source: turris), on arrive à quelque chose de propre…

Mais quel investissement de temps pour être “libéré”. Par contre, aucun regret

Nycom

Le 26/09/2023 à 13h 16

Le scraping de Linkedin est malheureusement courant.

Mon profil s’est plusieurs fois retrouvé sur des sites répertoriant des consultants indépendants (bloomco par exemple) alors que je ne m’y étais jamais inscrit…

Y a clairement un trou dans le RGPD…

Xanatos Abonné

Le 26/09/2023 à 13h 40

Contrôler la diffusion de ses adresses email, c’est très bien, mais ce n’est qu’une facette du cauchemar.
Pensez à jeter un œil à ce que votre smartphone siphonne.

Pour l’article, merci, mais plus vulgarisation par 1 exemple vécu que investigation.
Fouiner du côté de skrapp et recouper voire arriver à donner un coup de pied dans la fourmilière m’aurait bien plu.

whitemoon Abonné

Le 26/09/2023 à 14h 35

dedalum a dit:

Grace à des commentaries sur NExtInpact, j’ai decouvers que Infomaniak aussi, (que j’utilise). Bien moins datavore (a mon avis?) que celui mentionné…

J’ai testé Infomaniak. Mais je ne vois pas comment utiliser les alias en expédition. Il semble que l’on ne puisse envoyer un email qu’avec l’adresse de la boîte, toute autre tentative renvoie un message d’erreur. Je ne me vois pas envoyer mes emails à partir de [email protected]

Le 26/09/2023 à 15h 09

#8.1

Voir mon message au dessus :)

Zone démilitarisée Abonné

NextINpact a dit:

Côté LinkedIn, c’est simple : cela contrevient à leurs conditions d’utilisation, et cela nous a été confirmé par l’assistance utilisateur. Donc skrapp.io n’a pas le droit de parcourir les pages de LinkedIn pour en tirer de l’information.

Pour que les CGU aient une vraie valeur contractuelle, il est indispensable que les utilisateurs de votre site les aient acceptées. On ne peut pas rendre opposables les CGU si elles ne sont pas accessibles et qu’on n’a pas la preuve qu’ils les ont lues et acceptées. Donc il faudrait que skrapp.io les ait acceptées pour que LinkedIn puisse peut-être faire quelque chose.

Jean_G Abonné

Le 26/09/2023 à 15h 18

#10

(reply:2155194:Zone démilitarisée) (reply:2155184:Xanatos)

Le problème (la subtilité) est là : le scraping n’est pas interdit. C’est l’utilisateur du plugin qui est en faute quand il l’utilise (car cela contrevient aux CGU qu’il a acceptées, lui). Or la “victime” ne peut se retourner que contre l’utilisateur du plugin (si l’utilisateur contrevient au GRPD), pas l’éditeur du plugin. Or s’il a du succès, on peut se retrouver avec centaines d’utilisateurs du plugin à contacter, au lieu d’un seul point de contact (l’éditeur). Idem pour LinkedIn qui ne pourra agir que sur les utilisateurs (côté CGU). C’est tout le problème du scraping, et les outils sont nombreux (par ex https://chrome.google.com/webstore/search/scraping?hl=fr&_category=extensions).

Côté skrapp.io : zéro réponse.

Le 26/09/2023 à 16h 30

#10.1

Ce que je comprends dans l’histoire c’est que l’affirmation “skrapp.io n’a pas le droit de parcourir les pages de LinkedIn pour en tirer de l’information” est erronée, puisque skrapp.io n’est pas un utilisateur de LinkedIn, puisqu’il n’a pas accepté les CGU.

FrancoisA Abonné

Le 26/09/2023 à 17h 33

#11

Il faut faire attention avec le scrapping, un consortium de journalistes internationaux (dont fait partie en France Le Monde) avait scrappé la base de données du Registre des Bénéficiaires Effectifs (RBE) du Luxembourg pour enquêter sur les “optimisations fiscales”.
Des fois l’illégalité permet de faire de vrais enquêtes journalistiques.

kamui57 Abonné

Le 26/09/2023 à 20h 26

#12

Un jour en cherchant comment ne pas mettre son numéro de téléphone dans son compte leboncoin quand il le demande à la connexion, j’ai trouvé des résultats de recherche concernant le scraping des numéros de téléphone dessus et ça m’a conforté… ensuite j’ai trouvé une appli qui fait un numéro virtuel mais elle ne s’est pas lancée sur mon fairphone 3 /e/os à cause d’une erreur de captcha. Résultat je ne peux pas me loguer sur mon compte leboncoin car il demande d’ajouter un numéro.

ricozed Abonné

Le 27/09/2023 à 06h 02

#13

c’est beau…

Le 27/09/2023 à 06h 55

#14

(reply:2155218:Zone démilitarisée) Levons (un peu) l’ambiguïté : je confirme que skrapp.io n’a pas le droit de parcourir les pages LinkedIn pour en tirer de l’information en tant que responsable du traitement. Par exemple il n’a pas le droit de les stocker lui-même pour les proposer ensuite à ses clients, cf. ce que nous a dit la CNIL à ce sujet sur le responsable de traitement. Mais c’est là toute l’astuce, c’est un utilisateur de LinkedIn qui opère et qui est responsable de l’usage du plugin sur LinkedIn et des données.

Le 27/09/2023 à 09h 37

#14.1

Merci pour les précisions.

fofo9012 Abonné

Le 27/09/2023 à 07h 09

#15

Il est de leur responsabilité d’entamer une action judiciaire pour le non-respect de ses CGU, mais leur service clientèle semble ne s’intéresser qu’aux membres du réseau

Quelle action judiciaire ? Si on enfreint une CGU le contrat est rompu et c’est tout. Concrètement Linkedin ferme ton compte.

Sur le fond de l’article je comprends l’agacement, mais là aussi je ne comprends pas vraiment ni le titre ni le problème avec le plugin ou le scrapping en général : ça n’a rien d’illégal, c’est un simple outil au même titre qu’une souris qui permet de sélectionner du texte, qu’un clavier de copier / coller…
Ce qui est illégal c’est de faire des fichiers de données personnelles sans consentement, pas de copier / coller ces données.

Tandhruil

Le 27/09/2023 à 07h 10

#16

J’ai un compte mailo pour 12 € par an et je peux gérer des alias type [email protected]

Le 27/09/2023 à 07h 37

#17

(reply:2155301:fofo9012) Prenons une analogie, avec un monde (purement imaginaire) où la vente d’armes à feu serait autorisée mais leur usage interdit. Quel serait le levier le plus efficace pour être protégé (si on excepte prendre soi-même une arme à feu) : demander à toute la population de respecter la loi qui interdit de s’en servir ? Demander de ne pas en acheter ? Ou agir à la source (sur la vente d’armes ou leur fabrication) ? C’est la question (ouverte) du problème du scraping, heureusement plus énervant que grave !

lgoncalves Abonné

Le 27/09/2023 à 08h 01

#18

Il y a aussi une autre possibilité : la fuite de données linkedin qui a eu lieu il y a quelques années. De mon côté je reçois des emails professionnels sur une ancienne adresse email qui apparaissait dans la fuite de 2021. Tu peux utiliser le site https://haveibeenpwned.com/ pour avoir plus d’infos sur là où traine ton email. Plus d’infos sur la fuite (qui a la base est du scrapping) : https://www.businessinsider.com/linkedin-data-scraped-500-million-users-for-sale-online-2021-4?r=US&IR=T

Le 27/09/2023 à 08h 25

#19

Jarodd a dit:

Voir mon message au dessus :)

De mon côté Thunderbird ne fonctionne pas. Je peux bien indiquer l’adresse d’expédition que je souhaite dans Thunderbird. Mais, à l’envoi, le serveur SMTP d’infomaniak interdit l’envoi tant que je n’indique pas catchall@mondomaine comme expéditeur (que j’utilise comme identifiant de connexion au serveur SMTP). Chez Gandi, je pouvais utiliser n’importe quelle adresse d’expédition, y compris d’autres domaines, sans que le serveur SMTP de Gandi me bloque.

Là, la seule solution serait d’utiliser infomaniak en réception et de trouver un autre service plus tolérant à l’expédition….

Le 27/09/2023 à 10h 58

#19.1

Peut-être que catchall ne peut pas répondre directement, elle est assez particulière. Essaye en redirigeant tous les mails de catchall vers une autre adresse, que tu relèves, et tu pourras tester l’expéditeur.
Il n’y a pas de raison de ne pas pouvoir le faire, sinon le support devrait t’aider (il faut s’armer de patience, en ce moment ils mettent 10 jours à répondre, en lisant la moitié de la demande…).

zeebop Abonné

Le 01/10/2023 à 08h 52

#19.2

Il est possible de répondre ou rédiger un mail avec un alias Infomaniak depuis le webmail Infomaniak. Mais c’est un peu fastidieux.

Pour cela il faut au préalable se rendre dans le menu paramètres, adresses mail, signatures, et créer une nouvelle signature. Dans les paramètres avancées en bas de l’écran on peut sélectionner l’adresse d’envoi et l’adresse de réponse. De base c’est uniquement l’adresse du compte principal qui est proposée. En cliquant sur le bouton + on peut ajouter une adresse mail d’un alias pour ces champs (après une procédure de vérification par l’envoi d’un mail de validation sur ledit alias).

Ensuite, lors de la rédaction d’un mail, le champ “De :” propose une liste déroulante avec toutes les signatures créées.

Garulfo76 Abonné

Le 27/09/2023 à 09h 10

#20

Intéressant comme article. C’est la plaie tout ça
Comme plusieurs ont dit il faut utiliser des alias pour se protéger un minimum et si possible aussi différentes adresses e-mail.
C’est un gros enjeu aujourd’hui, le respect et la sécurité de nos données. Dans mon cas j’ai choisi de commencer à m’intéresser au hacking éthique pour essayer d’améliorer la sécurité de nos données.

aware2 Abonné

Le 27/09/2023 à 10h 31

#21

Perso, j’ai entrepris il y a quelques mois “un site : un mail”
Comme indiqué par d’autres, les alias de type “+” sont connus et reconnus.
J’ai un abonnement Protonmail. J’y ai configuré un domaine custom.
Egalement, SimpleLogin étant accessible avec un compte Proton, hop j’ai configuré un autre domaine custom. (et catchall activé si besoin de donner une adresse rapidement)

Mes mails sont du type site.suffixeunique[at]customdomain.xx

J’ai fait le plus dur, j’ai changé une grosse partie des sites principaux que j’utilise avec un mail unique.
Et après, petit à petit, dès que reçois un mail sur mon adresse gmail, j’en profite pour changer. Ca demande un peu de taff, mais ça se fait bien !

Pas de gros problèmes rencontrés. Un site où j’étais inscrit obligeait une adresse Goggle & co. hop ça dégage. Un autre ne voulait pas son nom dans l’adresse mail (coucou Samsung)
Pas de problème avec ma banque, les organismes de santé, etc
Là j’ai un problème avec Patreon. Je ne reçois pas le mail de confirmation. J’ai écrit au support, à suivre.

Bref, tout ça pour dire que ça va me permettre de mieux filtrer, de mieux gérer les fuites.

Le 28/09/2023 à 06h 12

#22

Jean_G a dit:

Prenons une analogie, avec un monde (purement imaginaire) où la vente d’armes à feu serait autorisée mais leur usage interdit. Quel serait le levier…

Ah mon sens c’est plus un outil qu’une arme : Comme un marteau ou un tournevis peut être utilisé pour tuer quelqu’un il faut fermer tous les Leroy Merlin de France ?

Perso j’ai codé ce genre d’outil quand je cherchais un nouveau téléphone avec certains critères précis : j’ai codé un scrapping de la page smartphone d’un site de téléphone, ²⁄₃ regexp pour extraire les caracts des tel, et je me suis fait mon propre tableur avec tous les smartphones du site, j’ai ensuite trier-filtrer à ma guise pour trouver le modèle répondant à mes besoins. Bref ça n’a rien d’illégal, si j’avais exploité cette base commercialement peut-être.
Pour linkedin c’est pareil l’outil n’est pas illégal, d’ailleurs Microsoft vend ces données. Ces données collectées sont soit publiques, soit pseudo publiques (dans le “cercle d’amis” du réseau) l’outil de scrapping ne fait qu’automatiser ce qu’on peut faire à la main.

Le 28/09/2023 à 11h 57

#22.1

A mon avis, l’analogie ne fonctionne pas ici : l’utilisation normale du marteau est de bricoler, ce qui est légal. L’utilisation normale (et le seul usage) du plugin oblige l’utilisateur a enfreindre les CGU de LinkedIn.

Les commentaires sont là pour ça ! D’ailleurs le jugement semble bien dire que le scraping est légal. Par contre, dans le cas mentionné, si on était en Europe, cela tomberait sous le coup du RGPD : même si le scraping reste légal, la collecte de données sans l’accord de l’utilisateur ne le serait probablement pas.

reyman Abonné

Le 28/09/2023 à 16h 02

#22.2

Jean_G

Yes, l’affaire LinkedIn mais pas que celle là sont des véritables roman a rebondissement, preuve aussi que la frontière entre légal et illégal est très subjective encore… Merci encore pour l’article, c’est effectivement l’occasion d’en discuter et de poser des jalons. A titre pro. ça fait un moment qu’on essaye de savoir ce qui est legal ou pas dans les labo de recherche, au début il y avait du flou mais le rgpd nous couvre un peu mieux. Toutefois, et je crois que c’est une limite aussi, le rgpd ne s’intéresse qu’au données personnelles or le webscrapping va bien au delà…

vizir67 Abonné

Le 29/09/2023 à 09h 19

#22.4

reyman

la frontière entre légal et illégal est très floue !

‘certains sites’ jouent la dessus, justement, est sont ‘borderlines’ !

Le 28/09/2023 à 19h 39

#22.3

J’ai voulu installer le plugin pour analyser son fonctionnement mais impossible d’aller plus loin que la création du compte, ou alors j’ai loupé une étape. Cependant, il me semble que j’ai lu que le site du plugin envoyait périodiquement à l’utilisateur le résultat du scrapping. Si cela est confirmé, alors ça signifie que le plugin ne travaille pas sur la machine de l’utilisateur, mais que c’est le site lui-même qui effectue le scrapping pour le mettre à la disposition de l’utilisateur. Et c’est la mise à disposition qui poserait problème. J’ai bon ?

janvi Abonné

Le 28/09/2023 à 07h 19

#23

Problème complexe la gestion des @mail…

Mon adresse mail principale est une msn.com, donc elle en a vu des sites… Et je suis donc sous outlook.

Limité à 10 alias, je crois, ont peut sélectionner ceux permettant de se connecter au compte.
J’ai donc 1 Alias me permettant de me connecter à mon compte, utiliser exclusivement pour ça.
Les 9 autre alias (dont le msn.com) ne peuvent pas servir de connexion à mon compte.

Au moins je n’expose pas mon compte outlook. Après le nombre d’alias est faible et permet pas une création par site.
Et j’avais fait des test, c’était insidieux, un alias sur un ou deux site, les spam commençaient souvent après plus d’un an, j’imagine pour réduire le l’identification du site qui a permis la fuite de donnée…

Le 28/09/2023 à 08h 03

#24

Je suis étonné que l’article ne cite pas l’affaire linkedin aux usa (https://www.business-humanrights.org/fr/derni%C3%A8res-actualit%C3%A9s/usa-web-scraping-held-to-be-legal-in-lawsuit-brought-by-linkedin-over-privacy-concerns/). Le fait que le scrapping soit légal ou illégal est beaucoup plus complexe que çà il me semble, et fortement dépendant des lois en vigueur dans les différents pays.

De plus la valeur de CGU d’une société américaine (comme twitter ou d’autres) n’a pas forcément de valeur/correspondance en France (voir les condamnation existantes). Bref, au delà du fait de savoir si c’est éthique ou pas, la question de la légalité / illégalité doit être posé aussi en tenant compte de l’assymétrie qui existe sur des plateformes gratuites ou “les données sont le produit” ! Autrement dit, vampiriser par du webscraping une plateforme qui elle même vampirise / capitalise sur les données personnelles est-ce éthique ? Les GAFAM passe leur temps à se nourrir de données personnelles, avec des CGU souvent illégales et volontairement indigestes. La question du webscraping mériterait donc un traitement plus approfondi il me semble.

neophus Abonné

Le 28/09/2023 à 09h 35

#25

Pour les alias, j’utilise Relay de firefox. 12€ par an. Alias illimité et domaine perso en xxx.mozmail.com.
Gestion au top sur firefox

Atreide_NI Abonné

Le 28/09/2023 à 11h 03

#25.1

Y a pas la même chose avec Brave gratuitement?

Le 28/09/2023 à 11h 08

#25.2

Atreide_NI

Aucune idée, je n’utilise pas brave

Le 28/09/2023 à 11h 17

#25.3

neophus

Et je suis pas encore bien réveillé, c’est duckduckgo!

ACasset Abonné

Le 28/09/2023 à 13h 17

#25.4

Tu as aussi SimpleLogin (qui a été récemment racheté par Proton, et donc intégré dans l’abonnement), qui propose un guide pour de l’auto-hébergement (https://github.com/simple-login/app). Il est déjà assez complet, et continue de rajouter régulièrement des features.

Fabash Abonné

Le 28/09/2023 à 19h 26

#26

(reply:2155169:Fab’z)
Oui, c’est exactement ce que je fais avec un plan OVH, et donc un alias par service et je ne communique jamais l’adresse principale.
Et j’ai pu effectivement voir une fuite sur mon vieil alias pour Viadeo ou plutôt qu’ils s’étaient fait racheter je crois (je n’utilisais plus le service)

Au passage, merci pour cet article tres INtéressant, avec ce partage d’expérience !

Le 29/09/2023 à 02h 49

#27

Jean_G a dit:

A mon avis, l’analogie ne fonctionne pas ici : l’utilisation normale du marteau est de bricoler, ce qui est légal. L’utilisation normale (et le seul usage) du plugin oblige l’utilisateur a enfreindre les CGU de LinkedIn.

C’est justement le fond de ma remarque, je ne vois pas en quoi il est illégal d’enfreindre les CGU d’un site. Si j’enfreins les CGU de linkedin, je ne vois ce que je risquerai à part me faire supprimer mon compte par linkedin. Si je commets un délit en enfreignant les CGU de linkedin, ces CGU vont être utilisées par Microsoft pour se dédouaner de mon action (l’utilisateur n’a pas respecté les CGU, donc Microsoft n’y est pour rien), et si il y a un préjudice Microsoft pourrait se retourner contre moi.

Le scrapping n’est à mon sens pas du tout illégal, pas plus que la fonction enregistrer sous, ou imprimer du navigateur.

Le 29/09/2023 à 02h 57

#28

(quote:2155788:Zone démilitarisée)
Cependant, il me semble que j’ai lu que le site du plugin envoyait périodiquement à l’utilisateur le résultat du scrapping. Si cela est confirmé, alors ça signifie que le plugin ne travaille pas sur la machine de l’utilisateur, mais que c’est le site lui-même qui effectue le scrapping pour le mettre à la disposition de l’utilisateur. Et c’est la mise à disposition qui poserait problème. J’ai bon ?

Pas nécessairement, ça peut être un Web Worker sur ta machine (un script qui tourne dans ton navigateur sans nécessairement avoir un onglet ouvert sur le site). Par contre si le compte linkedin est stocké sur les serveurs du “plugin” et que le traitement est déroulé là-bas, là le site devient responsable de traitement et tombe sous le coup du RGPD.

Ça m’étonnerait que ce soit ce second scénario, car le serveur serait facilement détecté et bloqué par Microsoft.

SibeR Abonné

Le 29/09/2023 à 11h 55

#29

(reply:2155145:Fab’z)
Héberger ou faire héberger son propre serveur mail demande des compétences spécifiques et du temps ! Le mail c’est vital et il est risqué de perdre des messages en cas de problème sur ton infra (plutôt ballot) :)

Berbe Abonné

Le 01/10/2023 à 17h 46

#30

(quote:2155145:Fab’z)
Je me dis que j’aimerais bien avoir mon propre serveur de messagerie parfois.

Ouaip.

(quote:2155145:Fab’z)
Une idée intéressante trouvée dans les commentaires était d’avoir autant d’alias différents que de service utilisé. Comme ça on peu voir d’ou ça fuite, et on change d’alias pour le service après.

(quote:2155145:Fab’z)
Et puis se faire ses propres blacklist IP c’est moins chiant que j’aurais cru ^^ chronophage quand même mais ça reste satisfaisant. (Sous réserve d’avoir les équipements pour faire ça bien)

Ouaip.
Pas spécialement complexe, et pas besoi nd’autre équiepement.

Un MTA pour s’occuper de la réception/émission SMTP/Submission

Une configuration relativement saine permettant de limtier au maximum les abus et permettant les alias. Attention : bien rester souple car encore beaucoup de systèmes violent les RFC en étant très restrictifs sur les adresses courriel possibles.
De prétendus professionnels derrière de gros sites Web filtrent ces adresses avec de risibles expressions régulières simplistes et la grossière inculture fait que ce sont les réelles connaisseurs qui se retrouvent empêchés.

Un pare-feu + une analyse active de journaux (fail2ban) permet d’attraper & bloquer les petits malins. L’arme lourde des listes manuelles peut ensuite être sortie dans les cas particuliers.

Côté contre-attaque, au delà du blocage, des message abuse au fournisseur de service, à l’hébergeur, jusqu’à signalement au gestionnaire de noms de domaines ou propriétaire du bloc IP ainsi que signalement aux autorités permettent parfois d’arrêter l’hémorragie.
Si la majorité des abuse contactés ont réagi professionnellement, traces à l’appui, certains hébergeurs (dont un français), déjà bien connus pour leur piètre qualité de service, répondent de manière décevante.

(quote:2155145:Fab’z)
Un truc identique pour la téléphonie aurait été pas mal non plus.

La téléphonie a un historique centralisé/fermé.
Aujourd’hui encore les implémentations de téléphonie numérique dans les box sont opaques, et certains ayant tenté l’ingénierie inverse ont vu des menaces judiciaires leur arriver (Orange).

Au niveau filtrage, on pourrait espérer que les opérateurs ne laissent plus sortir des appels dont les informations d’émission ont été bricolées, mais cela est loin d’être la norme.
Tant au niveau émission que réception, le monde de la téléphonie n’a pas encore la modernité d’Internet des années 1980. Et pas sûr qu’une changement de paradigme y opère.
On se borne pour l’instant à avoir transformé un signal analogique en numérique et à faire transiter ça par le réseau Internet. Super.

Le 01/10/2023 à 21h 40

#31

zeebop a dit:

Il est possible de répondre ou rédiger un mail avec un alias Infomaniak depuis le webmail Infomaniak. Mais c’est un peu fastidieux.

Pour cela il faut au préalable se rendre dans le menu paramètres, adresses mail, signatures, et créer une nouvelle signature. Dans les paramètres avancées en bas de l’écran on peut sélectionner l’adresse d’envoi et l’adresse de réponse. De base c’est uniquement l’adresse du compte principal qui est proposée. En cliquant sur le bouton + on peut ajouter une adresse mail d’un alias pour ces champs (après une procédure de vérification par l’envoi d’un mail de validation sur ledit alias).

Ensuite, lors de la rédaction d’un mail, le champ “De :” propose une liste déroulante avec toutes les signatures créées.

Mais du coup, cela limite la possibilité à :

l’usage du webmail infomaniak (impossible via Thunderbird ou K9 mail)

l’usage des alias prédéfinis auprès d’infomaniak (impossible avec nimportequoiàlavolé[email protected]) ce qui fait perdre l’intérêt du catchall.

Mon cas d’usage, c’est de m’inscrire à petitsiteinconnu.com avec une adresse [email protected].

Avec Infomaniak, je reçois ce genre de mail sans problème. Mais je veux également pouvoir échanger éventuellement des mails avec le support de ce site en envoyant mes mails depuis la même adresse
[email protected] sans devoir créer un alias.

[Enquête] Les escrocs du scraping

Ça chatouille là où ça gratouille ?

Prospection personnelle ou professionnelle

Un coup d’œil aux archives

En quête de statut

Grattons tant qu’on peut

Est-ce légal ?

À propos de la prospection commerciale

Et que fait LinkedIn ?

Tiens, en parlant de ça :

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Sommaire de l'article

Introduction

Prospection personnelle ou professionnelle

Un coup d’œil aux archives

En quête de statut

Grattons tant qu’on peut

Est-ce légal ?

À propos de la prospection commerciale

Et que fait LinkedIn ?

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (52)