Google ou l'« OCR-isation » du monde

Google ou l’« OCR-isation » du monde

ED 041 CD

Avatar de l'auteur
Marc Rees

Publié dans

Droit

19/11/2019 6 minutes
23

Google ou l'« OCR-isation » du monde

« Incroyable la vitesse à laquelle Google référence les plaques d’immatriculation. Ici une des voitures retournées à la place d'Italie ». Ce tweet posté par le compte @MCCob relève, en quelques mots, les capacités d’extractions d’images par Google. Le moteur a bien voulu réagir dans nos colonnes.  

Cette fonctionnalité, également pointée par BFMTV, Caradisiac et bien avant Autoplus, montre que Google peut donc « lire » la plaque d’un véhicule, peu importe son orientation, pour ensuite l’indexer dans son moteur de recherche.  Conclusion : en tapant la suite de chiffres et de lettres, on peut retrouver des photos comprenant cette référence administrative, indexées par le moteur.  Magique. 

Ont ainsi été « gloutonnés » par Google un véhicule mis en vente sur un site d’annonce, la plaque d’une 4L sur une photo utilisée par Wikipédia, un camion de pompier, une ambulance, l’une des voitures officielles du gouvernement (utilisée notamment par Manuel Valls, alors premier ministre) ou  encore la plaque d'une Google Car utilisée pour Street View.

Plaque floutée sur Maps, en clair sur Search

Google offre ici une fonctionnalité que Google Maps s’interdit. Ou plutôt se voit interdire. En 2008, la CNIL indiquait dans son rapport que son service Street View, « qui permet de visualiser des images des villes et offre un système de navigation à 360°, n’a été lancé en France qu’après modification du système déjà utilisé aux États-Unis pour prendre en compte les préconisations de la CNIL ».

En conséquence, « des aménagements ont ainsi été effectués pour respecter les règles européennes de protection de la vie privée, notamment le "floutage" des visages et des plaques d’immatriculation ».

Voilà pourquoi depuis, ces éléments d’identification n’apparaissent pas en clair lors d’une exploration des rues en 3D. L’autorité avait par ailleurs mis en ligne un formulaire dédié pour réclamer ce traitement d’images, en cas de raté. 

Plus de 10 ans plus tard, avec l’entrée en application du règlement général sur la protection des données personnelles, le sujet reste d’actualité. L’article 4 du RGPD apporte une définition suffisamment vaste de la « donnée personnelle » pour y maintenir les plaques d’immatriculation.

Ce sont en effet toutes les informations « se rapportant à une personne physique identifiée ou identifiable ». Le texte européen répute être une personne physique identifiable, « une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale » (notre dossier).

D’autres dispositions plus généralistes peuvent être en cause comme le droit à la vie privée, puisqu’avec la plaque, on sait qu’une personne s’est garée dans telle rue. En exploitant les métadonnées attachées à l’image, on peut parfois découvrir l’heure et le jour de la prise de vue, avant de réclamer des comptes au titulaire de la carte grise... 

Cloud Vision, une reconnaissance de caractères en 50 langues

Les technologies de reconnaissance de caractères dans les images sont suivies comme le lait sur le feu par Google, en témoignent ces pages décrivant l’API « Cloud Vision ». 

Cette interface de programmation, explique la page Google Cloud, « utilise la reconnaissance optique des caractères pour détecter du texte à l'intérieur d'images dans plus de 50 langues et divers types de fichiers. Elle intègre également l'IA pour la reconnaissance de document, qui vous permet de traiter rapidement des millions de documents et d'automatiser vos workflows ».

Elle sert également à la détection des « contenus explicites » (contenus réservés aux adultes ou violents). On ne sait pour l’heure si elle est intégrée au moteur de recherche.

« 8806923102858 CORINNE »

La solution de reconnaissance déployée par Google n’est en tout cas pas concentrée sur les seules plaques minéralogiques. Une requête « 8806923102858 CORINNE » permet par exemple de retrouver le scan du spécimen d’une carte d’identité utilisée sur de nombreux sites, notamment de ventes de portefeuilles.

D'ailleurs, Google associe « 8806923102858 CORINNE » à une série de mots-clefs comme porte-chéquier, cuir bleu, cuir vachette, papiers, conduire carte ou portefeuille homme, alors que sémantiquement, l'expression recherchée est sans aucun lien. 

En tapant « F-GRPF », on retrouvera cette fois l’ensemble des photos de cet avion de tourisme, identifié par cette autre série de caractères.

corine carte d'identité ocr

Pour Google, cette technologie améliore la pertinence des résultats 

Contactée, l’antenne française du moteur nous indique utiliser cette technologie pour améliorer la pertinence des résultats de recherche. Elle n’est donc pas orientée autour des images et des données de plaques d'immatriculation.

Google rappelle que ses services Search et Images indexent les informations, les pages Web et les images accessibles au public sur le Web. Et, dans le lot, des informations personnelles telles que les numéros de plaque d'immatriculation font nécessairement partie du corpus public. La problématique a d'ailleurs été soulevée plusieurs fois devant la Cour de justice de l'Union européenne lorsqu'a été évoqué le droit à l'oubli (ou droit à l'effacement).

Dès lors, si les plaques d'immatriculation apparaissent sur Google Images, c'est avant tout parce qu'elles sont disponibles sur le Web et sont publiques.

Google France rappelle qu’en cas de présence de données personnelles, même sur Google Images, couplées à des risques importants d'usurpation d'identité, de fraude financière ou autres dommages spécifiques, un formulaire dédié est disponible pour assurer un coup de gomme

Contrairement à ce qui a pu être dit sur Twitter, le moteur conteste enfin l’existence d’une banque centrale d’images dédiées aux plaques d’immatriculation. La différence avec StreetView finalement, est que dans les rues, la société a développé une technologie pour flouter les visages et les plaques dans les images collectées par ses propres services, technologie inexistante sur la partie moteur ou images.

Quand le monde devient « data »

Cette fonction, qui a fait l’objet de plusieurs articles récemment surtout centrés sur les véhicules, ne date pas d’hier. Selon nos informations, elle serait en vigueur depuis plusieurs années, sans que Google ne puisse la dater exactement.

Bref, retenons qu'en plus d'être ancienne, elle n’est pas non plus liée aux seules plaques d’immatriculation. Une certitude, elle témoigne de la capacité d’ « OCR-isation », ou de reconnaissance optique de caractères, dont est équipée aujourd’hui Google ou encore Facebook. Avec cette capacité, le monde qui nous entoure devient finalement « datas » et la réalité, une donnée pour nourrir ces algorithmes à généreuses pelletées.

23

Écrit par Marc Rees

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Plaque floutée sur Maps, en clair sur Search

Cloud Vision, une reconnaissance de caractères en 50 langues

« 8806923102858 CORINNE »

Pour Google, cette technologie améliore la pertinence des résultats 

Quand le monde devient « data »

Commentaires (23)


N’est ce pas?

Le futur made in Google me plait toujours plus jour après jour…


En soit, rien d’extraordinaire, ce que je comprends, c’est que lorsque google indexe une image, un coup de reconnaissance de caractère est réalisé. On peut donc ainsi facilement retrouver les plaque d’immatriculation ou des carte d’identité (factice dans le cas présenté dans l’article)

Ces infos sont traité comme un mot/texte et sont remis dans le contexte d’utilisation. Ainsi, le spécimen de carte d’identité étant très souvent trouver avec des porte feuille, le terme est donc associé dans la base de donné comme ayant une relation très forte avec les porte feuilles.



Du coup, ce qu’il faudrait que Google fasse, c’est en plus d’une OCR, ajouter une identification de contenu “sensible”, genre “hum, je vois une voiture, je trouve des caractères qui ressemble à une plaque d’immatriculation à un emplacement compatible, je n’indexe pas”.



Bon, aller, recaptcha va nous demander de trouver des cartes d’ID, des permis…




Google France rappelle qu’en cas de présence de données personnelles,

même sur Google Images, couplées à des risques importants d’usurpation

d’identité, de fraude financière ou autres dommages spécifiques, un

formulaire dédié est disponible pour assurer un coup de gomme.





Comment , “Google rappelle” ? Ce n’est pas parce qu’ils le disent à un journaliste que c’est un rappel. Popur être valable ce lien devrait être visible sur la page d’accueil de Google Images, autrement personne n’en a connaissance, et il ne sert à rien (à part les intérêts de Google qui conserve et affiche les données non supprimées).




Avec cette capacité, le monde qui nous entoure devient finalement « datas » et la réalité, une donnée pour nourrir ces algorithmes à généreuses pelletées.



C’est ce qu’on appelle un découplage : le monde physique est dématérialisé et remplacé par de l’information. La valeur de cette information peut être alors multipliée à l’infini alors que la valeur du monde physique stagne, diminue voire devient nulle.



Ce phénomène est très clair depuis les années 1970, en particulier dans l’utilisation des ressources naturelles.








tazvld a écrit :



Bon, aller, recaptcha va nous demander de trouver des cartes d’ID, des permis…





Zut, je voulais la faire <img data-src=" />





des aménagements ont ainsi été effectués pour respecter les règles européennes de protection de la vie privée, notamment le “floutage” des visages et des plaques d’immatriculation





Par contre ça ne s’applique pas aux sociétés privées d’autoroute française… faites ce que je dis, pas ce que je fais <img data-src=" />


elles rendent les plaques et visages disponibles au public ?


Vous inquiétez pas, ils font aussi la même choses avec les visages et la reconnaissance faciale.








tazvld a écrit :



Bon, aller, recaptcha va nous demander de trouver des cartes d’ID, des permis…





En fait, c’est justement parce que les gens valident les reCAPTCHA que Google se trouve par la suite capable de reconnaître des choses sur des images. C’est nous (enfin, nous… Contraints et forcés, parfois) qui aidons (= bossons gratuitement pour) Google, là.



C’était la blague ;)


Sachant que le numéro CNI et passeport sont des informations sensibles, avec un encadrement spécifique, on imagine sans mal comment google stocke des kilomètres de données de ce type …&nbsp;


Oh, après, il n’y a pas forcément besoin de Google pour faire une utilisation malveillante ; il y a un site qui s’amuse à lister les plaques d’immatriculation et qui permet à son bon vouloir de renseigner (sans modération) “l’attitude” du conducteur. Ce sont des insultes, souvent racistes, basées sur rien, des appels à être violent… Je l’ai signalé aux autorités d’ailleurs, je n’ai jamais eu de retour (bienvenue en France). Et ça ne fonctionne sur aucun OCR, c’est juste du facho-délation-participatif. Google fait son boulot, ça indexe… Si quelqu’un s’en sert hors cadre, “c’est plus son problème”.


Un jour j’ai fait une recherche google sur l’identifiant que j’utilise pour jouer online - un truc improbable (et nul), je me disais que personne d’autre n’y avait pensé (évidemment, c’est pas le cas)



Je suis tombé sur des screenshots (et des vidéos??) que d’autres joueurs ont publiés. On était dans les mêmes parties, et google me les a déterrées, bien que mon indentifiant n’apparaisse que dans les screenshots…



Bref, ils sont forts (et flippants).








tazvld a écrit :



On peut donc ainsi facilement retrouver les plaque d’immatriculation ou des carte d’identité (factice dans le cas présenté dans l’article)







C’est tous ceux qui stockent un scan de leurs papiers d’identité dans Google Drive qui vont être ravis, en l’occurrence.



C’est pas bien nouveau mais une réponse officielle fait toujours du bien.



Il y a quelques années, j’avais regardé «Hitman 2», celui où à la fin du film il croise son clone. On peut lire sur sa nuque son numéro de série dans la dernière scène. A l’époque, je l’avais tapé sur Google. Aucune page en faisant référence. Pourtant, premier et unique résultat, la page Wikipedia du film. Donc je pense que Google OCR-ise aussi les films.


Et donc ton cerveau va finir dans une cuve en verre recyclé ? <img data-src=" />

Le découplage c’est la richesse personnelle sans la richesse matérielle qui suit. Les deux sont préférables à rien…



Google pense réduire le monde à un cerveau artificiel fait de datas… hors je vois très mal Google se questionner sur la conscience ou l’âme… alors finalement Google ment et profite de ses profits pour abuser de la notion de découplage auprès de ses actionnaires ? (…)


Là où c’est plus rigolo, c’est de faire la recherche “4970 CB” ;)


Les séries et films sont rattrapés par la réalité. La technologie est là


Donc en gros le pb est que des plaques soient dispo dans google image sans floutage qui est problématique. L’OCR n’est qu’un moyen d’indexation qui part effet de bord index aussi les plaques.



Pour le coup je suis assez d’accord avec Google, les fautifs sont les gens qui publient des photos sans accord (facebook, instagram…), google image et son OCR ne sont qu’un outil..





Et si on cherche un no de plaques dans street view on trouve la voiture (avec sa plaque floutée) ? <img data-src=" />


Perso ,je ne blame pas non plus google et les autre moteurs, si on essaye de flouté ou retiré les plaques , il est garantie qu’il n’y aura pas juste des plaques qui seront censuré mais du contenu autre qui vont être affecté&nbsp;








Idiogène a écrit :



Et donc ton cerveau va finir dans une cuve en verre recyclé ? <img data-src=" />







Vu la teneur habituelle de ses propos, c’est déjà le cas…





Le découplage c’est la richesse personnelle sans la richesse matérielle qui suit. Les deux sont préférables à rien…





C’est une opinion intéressante. Surtout sur la question de richesse.



Et pour tmtisfree, le découplage, c’est quand il va venir ici sous son compte Jeanprofite pour nous dire que Google, c’est Big Brother, que les multinationales comme elle sont une menace pour les libertés publiques, toussa… <img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" />



J’encense la cause avec un compte, et je m’effraye des conséquences avec un autre… Pas de doute, il est bien découplé du réel, le tmtisfree/Jeanprofite.



Moi, je l’ai découplé tous les deux de mon champ de lecture, c’est une immense richesse personnelle de me passer de ses propos… C’est beau, le filtrage.





Google pense réduire le monde à un cerveau artificiel fait de datas… hors je vois très mal Google se questionner sur la conscience ou l’âme… alors finalement Google ment et profite de ses profits pour abuser de la notion de découplage auprès de ses actionnaires ? (…)





Exact. Et un risque fort de l’hypercentralisation auprès de multinationales comme Google, c’est que l’on finisse par subir une version numérique de la structure sociale de la société du moyen-âge…



Google, Amazon, Instagram, Facebook et autres, futurs seigneurs du monde numérique dont nous deviendrions les serfs. Ça fait rêver… <img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" /><img data-src=" />