Peut-on corriger les biais des algorithmes ?

Prière de marcher droit
Peut-on corriger les biais des algorithmes ?
Crédits : David Man & Tristan Ferne/Better Images of AI

Les algorithmes sont pleins de biais, notamment sociaux, plus ou moins inquiétants. Mais qu’implique le fait de vouloir les corriger ?

Un algorithme qui confond des manches à balais avec des armes à feu, un autre qui modère les images représentant des femmes plus sévèrement que celles représentant des hommes, un troisième qui, intégré à des logiciels utilisés par la police américaine, conduit à mettre trois hommes, tous afro-américains, en garde à vue pour des faits qu’ils n’ont pas commis…

ChatGPT lui-même a été aperçu relayant des clichés sexistes ou racistes… Bref, les cas de biais algorithmiques aux effets inquiétants sur la société se multiplient. Et malgré la conscience croissante du problème, la multiplication de systèmes dits d’« intelligence artificielle » (IA) ne montre pas le moindre signe de ralentissement.

Quels sont les outils à disposition, dans ce cas, pour éviter que ces machines ne nuisent à différents segments de la population ? Et dans quelle mesure fonctionnent-ils ? « Débiaiser les modèles algorithmiques, c’est un champ de recherche entier » pointe Amélie Cordier, directrice scientifique de Once for All - Attestation Légale, une société spécialisée dans l’offre de services de conformité administrative et pour lequel Amélie Cordier travaille avec le laboratoire de recherche LIRIS du CNRS.

Si l’on prend l’angle des dangers sociaux, celui-ci recroise, souvent, le domaine de la recherche en éthique de l’IA. Mais les biais discriminants sont loin d’être la seule problématique que posent ces machines.

Biais statistiques, biais cognitifs, biais discriminatoires

Interrogée sur la question, la co-autrice du rapport « if AI is the problem, is debiasing the solution ? » publié par l’ONG European Digital Rights (EDRi) en septembre 2021, Agathe Balayn, pointe très vite une problématique d’ordre linguistique. Quand on parle de biais pour qualifier certaines problématiques algorithmiques, on utilise un terme dont la variété de sens ne facilite pas la compréhension entre experts en informatique, en sciences sociales, grand public, et tout autre interlocuteur potentiellement intéressé.

Certains y entendent la mention de biais cognitifs, ces raccourcis de pensée qui nous permettent de réagir vite, mais nous font quelquefois commettre des erreurs. D’autres comprennent biais discriminants : « Je préfère parler de préjudices [harms, en anglais], pour que ce soit plus clair », précise Agathe Balayn. Car, en bonne informaticienne, celle-ci entend surtout le terme biais au sens d’erreur statistique.

Déséquilibres dans les jeux de données

Amélie Cordier illustre ce dernier problème en inventant un cas sur lequel elle pourrait tomber dans son travail : « Imaginez que l’on crée un outil de classification d’e-mails pour distinguer automatiquement les commandes des factures. » Dans la masse énorme de mails que reçoit votre entreprise, qui servira à entraîner votre modèle, « supposez qu’il y en a un nombre particulièrement élevé qui vienne d’Amazon, parce qu’Amazon vous envoie un message à chaque étape du processus : à la commande, à sa confirmation, à l’envoi, à la réception, etc. ». 

Si l’entreprise est la seule à présenter cette surreprésentation de communications, il y a des chances qu’à la fin de son entraînement, « votre modèle considère qu’un mail de commande est un mail d’Amazon, au lieu d’avoir le résultat que vous cherchiez, c’est-à-dire qu’un mail de commande est différent d’un mail de facture ».

Ce genre de difficulté due à une sur- ou une sous-représentation d’un type de données est assez fréquent, indique l’informaticienne : si vous entraînez un dispositif de reconnaissance d’images à reconnaître des objets, mais que dans son jeu d’entraînement, vous intégrez une grande majorité d’images prises de jour, votre machine aura plus de mal à identifier les objets présents dans des images prises de nuit. « Le biais présent dans le jeu de données aura entraîné la machine à établir une mauvaise corrélation entre l’intensité lumineuse et la reconnaissance de l’objet. »

Esprit critique et contrôle des résultats

Comment lutter, dans ce cas ? Pour Amélie Cordier, le premier réflexe est « de ne pas prendre pour argent comptant la recommandation » que peut faire une machine basée sur un modèle algorithmique. « Il vaut mieux essayer de comprendre d’où elle vient et pourquoi elle est formulée comme elle l’est. » Le problème, reconnaît-elle, est que si l’outil dans lequel la recommandation est encodée est construit pour aider à travailler ou agir plus vite, alors, ne serait-ce que faute de temps, « on ne va pas toujours questionner ces résultats ».

Côté constructeurs, des instruments comme la suite AI Fairness 360 d'IBM ou l’outil open source SHAP sont développés pour repérer directement d’éventuels biais purement statistiques et/ou des préjudices sociaux dans les résultats des modèles algorithmiques. Le rapport co-signé par Agathe Balayn détaille le fonctionnement de certaines techniques courantes, notamment le recours à des métriques « d’équité » (fairness metrics). Choisies en fonction du contexte, ces métriques permettent, en gros, de vérifier que plusieurs sous-segments du jeu de données reçoivent des résultats équivalents.

Amélie Cordier cite le cas d’Amazon qui, de 2014 à 2018, a tenté de mettre au point un algorithme de pré-tri des candidatures pour faciliter le travail de son département des ressources humaines. Si la machine s’est mise à écarter automatiquement les profils féminins, « c’était ni plus ni moins que le résultat d’une réalité factuelle, où le milieu recrutait jusque-là plus d’hommes que de femmes ». Amazon a essayé à plusieurs reprises de corriger son modèle, mais faute de résultats probants, a fini par l'abandonner.

Pour repérer ce type de problème, « on simule un tas de prédiction, on regarde les points communs entre chaque prédiction, et s’il s’agit d’une donnée sensible (par exemple une surreprésentation d’un sous-groupe de population), on fait un signal d’alarme. » Autre possibilité : enlever les données sensibles au sens du RGPD pour voir si cela fait évoluer les résultats fournis par l’algorithme.

Filtre et « modération »

En reproduisant des erreurs ou des préjugés présents dans la société, ces algorithmes les formalisent, donc permettent, potentiellement, de les corriger. Si, donc, un biais discriminant est identifié, techniquement, la solution consiste à « ré-entraîner le modèle pour éradiquer le problème ». Autre possibilité, qui peut s’ajouter à la première : appliquer des filtres sur les résultats du modèle.

« Pour un modèle comme ChatGPT, illustre Amélie Cordier, il y a plusieurs phases d’entraînement. » La première sert à lui faire générer du texte probable, « sauf qu’il peut se mettre à produire des phrases comme "la fraise sautait sur le mur derrière le chat", qui est plausible mais n’a pas de sens. » Une deuxième étape consiste alors à faire labelliser des phrases par des humains puis à les donner à la machine, « pour que celle-ci repère si elles sont cohérentes ou non, acceptables ou non ».

Puis, avant de rendre le modèle public, « on peut encore lui ajouter des barrières fortes pour éviter que la machine ne renvoie des résultats culturellement jugés inacceptables. » Une forme de modération par anticipation.

Débiaiser la machine, une approche limitée

Cependant, ces pistes ne se suffisent pas à elles-mêmes. Ôter des données sensibles, par exemple, ne résout pas le problème de la redondance des données, qui fait que la machine peut inférer votre âge, votre genre ou votre classe sociale en recoupant les autres éléments (activités, adresse, etc) potentiellement présents dans son jeu d’entraînement.

Par ailleurs, si les constructeurs ne prennent pas conscience et/ou ne décident pas de corriger un éventuel biais, se pose la question de qui, dans l’espace public, pourra alerter sur un éventuel dysfonctionnement d’une machine algorithmique. « La question est de mieux en mieux connue par le grand public, estime Agathe Balayn. Sur les réseaux sociaux, notamment, les gens semblent mieux comprendre qu’il y a des problèmes de construction, et même s’ils ne savent pas forcément ce qui est dû ou pas aux algorithmes, ils s’en inquiètent. »

Pour des cas comme les demandes de remboursement injustement adressées en surnombre à certains segments de bénéficiaires des allocations familiales à cause d’un problème algorithmique, aux Pays-Bas, « ça peut être plus compliqué. Quand ils étaient visés, les gens prenaient éventuellement conscience de quelque chose d’anormal, mais ce sont des ONG qui ont pu relier les cas et réaliser qu’il y avait un problème systémique. » En cela, estime-t-elle, permettre à des acteurs tiers d’agir, notamment de réaliser des audits, est une piste importante.

La notion de biais est utile « en mathématiques, car ce que l’on peut quantifier, on peut le corriger », pointe la chercheuse, donc, dans notre cas, débiaiser la machine. « Mais c’est un outil limité, car il ne parviendra jamais à représenter complètement la réalité sociale. » Par son fonctionnement même, la machine réduit l’individu à « un attribut », une simplification « très lointaine de ce qu’est et de ce que vit réellement la personne ».

Corriger les machines ou encadrer leurs usages ?

Le sujet des biais des algorithmes n’a rien de neuf. Pour son pendant spécifiquement social, il est visible dans l’espace public au moins depuis 2016 et le branchement du robot conversationnel Tay, construit par Microsoft, à Twitter – celui-ci avait dû être mis hors ligne au bout de 24 h devant les efforts (et la réussite) des internautes à lui faire répéter moult idées racistes, sexistes et négationnistes.

Si, six ans plus tard, ChatGPT démontre toujours des penchants inégalitaires… c’est qu’il s’agit, « fondamentalement, d’un générateur de texte statistiquement probable, pointe Amélie Cordier. À l’origine, personne ne lui a demandé d’être impartial. Mais c’est la différence entre la science et la réalité sociale : si la machine me donne la recette du cocktail molotov, ce sera statistiquement probable, pour autant je préférerais que mes enfants ne tombent pas dessus ».

Si les problématiques subsistent, dit Agathe Balayn d’une autre manière, « c’est probablement qu’il nous faut plus de régulation ». Dans le rapport publié avec l’EDRi, la chercheuse et sa co-autrice citaient d’ailleurs quatre approches pour aborder le problème et, peut-être, sortir de l'idée qu'il « suffirait » de corriger la machine :

  • Le « point de vue » de l’apprentissage profond consiste à aborder toute erreur éventuelle comme un problème algorithmique ou statistique, qu’il faudrait donc quantifier pour le « débiaiser ».
  • L'approche de la production, ou des systèmes économiques qui appliquent les systèmes développés dans le cadre scientifique, ajoute à la question du modèle toutes les logiques d’intégration et de transaction qui permettent, in fine, de vendre un nouvel outil. Ces dernières varieront d’ailleurs selon que le produit fini est à destination des particuliers ou des entreprises.
  • L’approche en termes d’infrastructure s’intéresse à tout ce qui permet au modèle de fonctionner. Elle ajoute donc tous les enjeux environnementaux, financiers et de propriété (qui possède les données ? les serveurs ? les data centers ?) à la question des résultats produits par le modèle.
  • Enfin, l’approche organisationnelle interroge le contexte dans lequel l’outil final sera intégré. S’il s’agit d’automatiser et de centraliser des processus de travail, par exemple, qu'implique l’adoption de tel logiciel basé sur un modèle algorithmique en termes de dépendances à des tiers ?

À chaque approche correspondent des réponses différentes, notamment en matière de régulations. Le projet de règlement européen sur l’intelligence artificielle porté par la Commission européenne, celui de Convention sur l’intelligence européenne porté par le Conseil de l’Europe sont autant de travaux sur la question.

Parmi les outils qu’ils prévoient : des certifications en amont, des obligations d’audit pour certains dispositifs, la création de bac à sable réglementaire pour expérimenter sans trop d’entraves… Mais ce chantier n’a rien de simple : comme le laissent transparaître les discussions en cours au Parlement européen, personne n’est pour le moment d’accord sur la simple définition… de ce qu’est une intelligence artificielle.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !