Alors qu'un rapport de l’Association internationale des professionnels de la vie privée (IAPP) répertorie plus de 250 startups espérant capitaliser sur le commerce des services de protection des données, un livre blanc du Future of Privacy Forum (FPF) détaille 10 risques à surveiller et 10 technologies émergentes à développer ces 10 prochaines années.
Avec l’adoption du California Consumer Privacy Act, entré en vigueur le 1er janvier, de nombreuses startups se lancent dans le business de la protection de la vie privée, rapporte NBC News.
Un rapport (PDF) de l’Association internationale des professionnels de la vie privée (IAPP), le bien nommé « Privacy Tech Vendor Report », en répertorie plus de 250, offrant des services de nettoyage de données personnelles ou d’accompagnement à la mise en conformité des entreprises, de management du consentement, de réponse aux incidents, de surveillance des activités, de désidentification ou de pseudonymisation.
« Nous venons de créer une industrie de la confidentialité », explique Alastair Mactaggart, responsable de Californians for Consumer Privacy, organisation qui a poussé l'État à adopter sa nouvelle loi sur la confidentialité, qui donne aux gens le droit de savoir ce que les entreprises savent à leur sujet, et le droit de bloquer la vente de ces informations à d'autres. Et ce, a fortiori parce que, dans la foulée du RGPD, de nombreuses entreprises ont décidé de l’appliquer au niveau national.
Le nombre de startups aurait quintuplé en trois ans, l’annuaire de l’IAPP étant passé de 44, début 2017 à 259 en octobre dernier. Il compte sa première « licorne », OneTrust, valorisée 1,3 milliard de dollars lors d’une levée de fonds l’été dernier. Son logiciel de « management de la vie privée » serait utilisé par 5 000 clients, dont 40 % des Fortune 500.
Du fait de la médiatisation croissante des fuites de données personnelles et des risques que le RGPD leur fait peser, de plus en plus d'entreprises passent d'une conformité manuelle à une automatisation opérationnelle, explique l’IAPP. Ce qui explique aussi pourquoi de plus en plus de fonds d’investissement et de capitaux risqueurs s’intéressent à ces startups, qui font aussi l’objet de plus en plus de fusions-acquisitions, en vue de la « consolidation du marché ».
Reste que la majeure partie ne vise pas tant à protéger la vie privée des internautes qu'à aider leurs clients à gérer et protéger les données des gens, en conformité avec les lois et règlements.
De l’« Internet des corps » aux données personnelles « de synthèse »
Le Future of Privacy Forum (FPF), de son côté, vient de publier un livre blanc consacré aux 10 risques et 10 technologies émergentes à surveiller ces 10 prochaines années. Sans surprise, la biométrie arrive en première place.
Non seulement pour ses systèmes de reconnaissance vocale et faciale, mais également comportementale, physiologique (de la peau aux battements de cœur), et même « potentiellement génétique ». Le FPF pointe du doigt les risques en matière de biais liés au sexe ou à la couleur de peau (les femmes, et les personnes de couleur, étant moins bien « reconnues » que les hommes blancs), mais également le fait que « le marché des gadgets, cosmétiques et vêtements de “camouflage biométrique” est en pleine expansion ».
Au-delà des systèmes de crédit social et de notation de réputation, basés notamment sur l’analyse de données collectées sur le web et les réseaux sociaux, le FPF souligne les risques que feront poser l’« Internet des corps » (« Internet of Bodies », ou IoB) qui, grâce aux interfaces hommes-machines, aux dispositifs biométriques, technologies médicales et à l’informatisation des données de santé, vont s’ajouter à l’Internet des objets (IoT).
Lentilles de contact connectées, pilules et pacemakers connectés : qui sera responsable en cas de piratage, de panne ou de fuite de données, se demande le FPF, a fortiori pour ce qui est des dispositifs directement connectés au cerveau ? Et comment encadrer le neuromarketing, l’analyse du mouvement des yeux ou des expressions du visage à des fins publicitaires et mercantiles ?
Le livre blanc évoque par ailleurs les risques posés par les systèmes de réalité virtuelle ou augmentée, les voitures semi-autonomes et les robots collaboratifs (« cobots »), le recours croissant aux systèmes de géolocalisation, y compris à l’intérieur des bâtiment, notamment avec le déploiement de la 5G, les « smart cities » (renommées « technopolice » par la Quadrature du Net) et leur dépendance à des technologies et algorithmes privés voire propriétaires.
L’informatique et la chimie quantiques pourraient, de leur côté, mettre à mal, mais également améliorer, les algorithmes de chiffrement des données, l’analyse prédictive et la recherche médicale.
Enfin, estime le FPF, les registres distribués de type blockchain ne « pourront probablement jamais être compatibles avec les cadres réglementaires ès-protection des données, à mesure qu’ils ne permettent pas d’exercer ses droits de rectification, à l’oubli et le contrôle des données personnelles », et devraient dès lors minimiser voire anonymiser celles qui y sont insérées.
Le « pétrole du XXIe siècle » est devenu « polluant »
Les méthodes cryptographiques dites de « Preuve à divulgation nulle de connaissance » (Zero Knowledge proof, ou ZKP, en anglais), qui permettent de minimiser les données voire d’éviter d’avoir à les divulguer tout en assurant une vérification de sécurité, sont la première des 10 technologies émergentes identifiées par le FPF.
Suivent le chiffrement homomorphe et le calcul multipartite sécurisé (Secure multi-party computation, ou SMPC), qui permettent d’effectuer des opérations sans avoir besoin de déchiffrer les données concernées, sans avoir besoin de passer par un tiers de confiance et sans risque de divulgation en cas de compromission de l’une des parties partageant le secret partagé.
La confidentialité différentielle, de son côté, permet d’anonymiser et désidentifier des données en y rajoutant du bruit statistique, de sorte de protéger la vie privée de ceux qui figurent dans une base de données. L'edge computing, ou « informatique en périphérie », consiste pour sa part à traiter les données à la périphérie d’un cloud, au plus près de la source des données, plutôt qu’au coeur du réseau, permettant elle aussi, de minimiser les données collectées et centralisées.
Cet objectif pourrait aussi être atteint grâce à l’apprentissage automatique (Machine learning) au niveau du terminal, qui pourrait profiter aux systèmes de gestion, vérification et certification de l’identité, sans avoir besoin de les partager.
Les sets de données synthétiques, qui répliquent les propriétés de données personnelles sans pour autant avoir besoin de stocker de données « réelles », et les techniques et approches dites de Small data, les algorithmes d’intelligence artificielle et d’apprentissage automatique pourraient, par ailleurs, éviter les problèmes posés par le Big Data.
Building powerful image classification models using very little data, par François Chollet
Plutôt que de prendre des photos de gens ou de voitures dans la rue, on pourrait par exemple utiliser celles d’ores et déjà disponibles dans des bases de données libres de droit. Ou modifier des photos de chats de sorte de pouvoir entraîner une IA à les reconnaître sans avoir besoin d’une base de données de millions de chats. Ou utiliser des réseaux adverses génératifs (generative adversarial network, GAN) pour générer des données de manière artificielle et créer des bases de données de synthèse, à l’image de ces visages et deepfakes créés par des IA.
À l'ère du Big data, les startupers voyaient les données personnelles comme « le pétrole du XXIe siècle ». En cette ère post révélations Snowden, Cambridge Analytica et RGPD, sur fond de montée en puissance des GAFAM et des data brokers, ces données personnelles sont devenues toxiques, voire polluantes.
Si l'écologie fait aujourd'hui consensus, c'est précisément parce que des pionniers se sont battus en ce sens, au XXe siècle, ce pourquoi la défense des libertés numériques est au 21e siècle ce que l’écologie fut au 20e. De même que nous devons apprendre à passer aux énergies propres, nous devons aussi apprendre à passer aux données propres, générant ou reposant sur une quantité limitée, la plus faible possible, de données personnelles.