Google ou l'« OCR-isation » du monde

ED 041 CD 23
Accès libre
image dediée
Crédits : Google
Loi
Marc Rees

« Incroyable la vitesse à laquelle Google référence les plaques d’immatriculation. Ici une des voitures retournées à la place d'Italie ». Ce tweet posté par le compte @MCCob relève, en quelques mots, les capacités d’extractions d’images par Google. Le moteur a bien voulu réagir dans nos colonnes.  

Cette fonctionnalité, également pointée par BFMTV, Caradisiac et bien avant Autoplus, montre que Google peut donc « lire » la plaque d’un véhicule, peu importe son orientation, pour ensuite l’indexer dans son moteur de recherche.  Conclusion : en tapant la suite de chiffres et de lettres, on peut retrouver des photos comprenant cette référence administrative, indexées par le moteur.  Magique. 

Ont ainsi été « gloutonnés » par Google un véhicule mis en vente sur un site d’annonce, la plaque d’une 4L sur une photo utilisée par Wikipédia, un camion de pompier, une ambulance, l’une des voitures officielles du gouvernement (utilisée notamment par Manuel Valls, alors premier ministre) ou  encore la plaque d'une Google Car utilisée pour Street View.

Plaque floutée sur Maps, en clair sur Search

Google offre ici une fonctionnalité que Google Maps s’interdit. Ou plutôt se voit interdire. En 2008, la CNIL indiquait dans son rapport que son service Street View, « qui permet de visualiser des images des villes et offre un système de navigation à 360°, n’a été lancé en France qu’après modification du système déjà utilisé aux États-Unis pour prendre en compte les préconisations de la CNIL ».

En conséquence, « des aménagements ont ainsi été effectués pour respecter les règles européennes de protection de la vie privée, notamment le "floutage" des visages et des plaques d’immatriculation ».

Voilà pourquoi depuis, ces éléments d’identification n’apparaissent pas en clair lors d’une exploration des rues en 3D. L’autorité avait par ailleurs mis en ligne un formulaire dédié pour réclamer ce traitement d’images, en cas de raté. 

Plus de 10 ans plus tard, avec l’entrée en application du règlement général sur la protection des données personnelles, le sujet reste d’actualité. L’article 4 du RGPD apporte une définition suffisamment vaste de la « donnée personnelle » pour y maintenir les plaques d’immatriculation.

Ce sont en effet toutes les informations « se rapportant à une personne physique identifiée ou identifiable ». Le texte européen répute être une personne physique identifiable, « une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale » (notre dossier).

D’autres dispositions plus généralistes peuvent être en cause comme le droit à la vie privée, puisqu’avec la plaque, on sait qu’une personne s’est garée dans telle rue. En exploitant les métadonnées attachées à l’image, on peut parfois découvrir l’heure et le jour de la prise de vue, avant de réclamer des comptes au titulaire de la carte grise... 

Cloud Vision, une reconnaissance de caractères en 50 langues

Les technologies de reconnaissance de caractères dans les images sont suivies comme le lait sur le feu par Google, en témoignent ces pages décrivant l’API « Cloud Vision ». 

Cette interface de programmation, explique la page Google Cloud, « utilise la reconnaissance optique des caractères pour détecter du texte à l'intérieur d'images dans plus de 50 langues et divers types de fichiers. Elle intègre également l'IA pour la reconnaissance de document, qui vous permet de traiter rapidement des millions de documents et d'automatiser vos workflows ».

Elle sert également à la détection des « contenus explicites » (contenus réservés aux adultes ou violents). On ne sait pour l’heure si elle est intégrée au moteur de recherche.

« 8806923102858 CORINNE »

La solution de reconnaissance déployée par Google n’est en tout cas pas concentrée sur les seules plaques minéralogiques. Une requête « 8806923102858 CORINNE » permet par exemple de retrouver le scan du spécimen d’une carte d’identité utilisée sur de nombreux sites, notamment de ventes de portefeuilles.

D'ailleurs, Google associe « 8806923102858 CORINNE » à une série de mots-clefs comme porte-chéquier, cuir bleu, cuir vachette, papiers, conduire carte ou portefeuille homme, alors que sémantiquement, l'expression recherchée est sans aucun lien. 

En tapant « F-GRPF », on retrouvera cette fois l’ensemble des photos de cet avion de tourisme, identifié par cette autre série de caractères.

corine carte d'identité ocr

Pour Google, cette technologie améliore la pertinence des résultats 

Contactée, l’antenne française du moteur nous indique utiliser cette technologie pour améliorer la pertinence des résultats de recherche. Elle n’est donc pas orientée autour des images et des données de plaques d'immatriculation.

Google rappelle que ses services Search et Images indexent les informations, les pages Web et les images accessibles au public sur le Web. Et, dans le lot, des informations personnelles telles que les numéros de plaque d'immatriculation font nécessairement partie du corpus public. La problématique a d'ailleurs été soulevée plusieurs fois devant la Cour de justice de l'Union européenne lorsqu'a été évoqué le droit à l'oubli (ou droit à l'effacement).

Dès lors, si les plaques d'immatriculation apparaissent sur Google Images, c'est avant tout parce qu'elles sont disponibles sur le Web et sont publiques.

Google France rappelle qu’en cas de présence de données personnelles, même sur Google Images, couplées à des risques importants d'usurpation d'identité, de fraude financière ou autres dommages spécifiques, un formulaire dédié est disponible pour assurer un coup de gomme

Contrairement à ce qui a pu être dit sur Twitter, le moteur conteste enfin l’existence d’une banque centrale d’images dédiées aux plaques d’immatriculation. La différence avec StreetView finalement, est que dans les rues, la société a développé une technologie pour flouter les visages et les plaques dans les images collectées par ses propres services, technologie inexistante sur la partie moteur ou images.

Quand le monde devient « data »

Cette fonction, qui a fait l’objet de plusieurs articles récemment surtout centrés sur les véhicules, ne date pas d’hier. Selon nos informations, elle serait en vigueur depuis plusieurs années, sans que Google ne puisse la dater exactement.

Bref, retenons qu'en plus d'être ancienne, elle n’est pas non plus liée aux seules plaques d’immatriculation. Une certitude, elle témoigne de la capacité d’ « OCR-isation », ou de reconnaissance optique de caractères, dont est équipée aujourd’hui Google ou encore Facebook. Avec cette capacité, le monde qui nous entoure devient finalement « datas » et la réalité, une donnée pour nourrir ces algorithmes à généreuses pelletées.


chargement
Chargement des commentaires...