Les algorithmes, entre intelligence et injustice artificielles

Bienvenue dans le monde réel

Les algorithmes, entre intelligence et injustice artificielles

Les algorithmes, entre intelligence et injustice artificielles

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Les algorithmes et les intelligences artificielles peuvent être de formidables outils… à condition qu’ils soient bien conçus et entrainés. Ils sont néanmoins très fortement dépendants des données mises à leur disposition et peuvent donc enfermer les utilisateurs, perpétuer et amplifier les biais des humains.

L’intelligence artificielle est omniprésente dans la vie de tous les jours : on la retrouve à différentes sauces dans tous les domaines (ou presque) de la vie numérique. Problème, il s’agit parfois (souvent ?) d’une boîte noire dont le fonctionnement n’est pas bien vraiment connu du grand public… quand il a conscience de son existence.

Le yin et yang de l’intelligence artificielle

Nous avons déjà eu l’occasion de l’expliquer à de nombreuses reprises : les intelligences artificielles peuvent avoir des biais parfois importants qui ne sont pas toujours faciles à appréhender, y compris pour les chercheurs. En fonction du jeu de données utilisées pour son apprentissage, une IA peut donner des résultats « étonnants », voire discriminatoires, alors que ce n’était pas le but ni la volonté de départ. 

Tout le monde n’est pas égal devant les algorithmes et les IA : « Si vous êtes une femme d’origine africaine et jeune, je ne pense pas que la médecine personnalisée vous concerne », expliquait Philippe Besse, professeur de mathématiques et de statistique à l’Université de Toulouse, dans un rapport de la CNIL. 

Mis entre de mauvaises mains, l’intelligence artificielle peut aussi avoir des effets pervers et dangereux. Un autre rapport dressait une liste non exhaustive des risques : malware avec une incroyable capacité d'adaptation, robot détourné de sa fonction première pour identifier et détruire une cible, système prédictif de perturbation civile et autres fake news. 

Toutes ces préoccupations avaient également été soulevées par Cédric Villani dans son épais rapport sur l’intelligence artificielle, ainsi que dans celui de Bruce Schneier qui s'inquiétait du temps où, « après avoir piraté l'humanité, les systèmes d'IA pirateront ensuite d'autres systèmes d'IA, et les humains ne seront guère plus que des dommages collatéraux ».

Dans le Journal du CNRS, Sihem Amer-Yahia, directrice de recherche au Laboratoire d'informatique de Grenoble, revient sur les « formes de discrimination » qui découlent des algorithmes et qui transpirent dans les intelligences artificielles. 

Des algorithmes à l’intelligence artificielle

Pour planter le décor, voici la définition d’un algorithme, telle que donnée par la CNIL en 2018 : « la description d’une suite finie et non ambigüe d’étapes (ou d’instructions) permettant d’obtenir un résultat à partir d’éléments fournis en entrée ». Pour simplifier, une recette de cuisine est un algorithme.

On retrouve un lien avec les IA : « L’intelligence artificielle qui repose sur le machine learning concerne donc des algorithmes dont la particularité est d’être conçus de sorte que leur comportement évolue dans le temps, en fonction des données qui leur sont fournies ».

Si la partie technique est différente, « une approche globale des algorithmes et de l’IA demeure cependant pertinente. Algorithmes déterministes et algorithmes apprenants soulèvent en effet des problèmes communs » ; ils dépendent notamment fortement des données. « L’algorithme sans données est aveugle. Les données sans algorithmes sont muettes » résumait poétiquement la Commission.

La directrice de recherche du CNRS rappelle que si les algorithmes sont si populaires, c’est qu’ils sont « en mesure de s’exécuter à très grande échelle et ainsi de traiter une grande masse de données rapidement et de manière complètement automatisée, ce dont l’être humain est totalement incapable ».

Quand son passé « détermine ses préférences futures »

Actuellement, « la grande majorité des algorithmes qui servent à aiguiller le résultat de nos recherches via un moteur de recherche ont été conçus pour personnaliser le résultat de ces recherches, et cela vaut également pour les plateformes de e-commerce et les sites de rencontre en ligne. Il est donc logique d’obtenir des résultats qui diffèrent selon le contexte dans lequel est effectuée la recherche et selon les préférences de tel ou tel individu ». 

Pour Sihem Amer-Yahia, « nous déléguons tous ces choix à l’algorithme » – de manière consciente ou non –, mais ce n’est pas sans conséquences puisque nous ne disposons pas « d’un moyen de parcourir ou d’agréger, ni même d’avoir une idée de la diversité des informations qui sont réellement disponibles sur le web ». Faire confiance à un algorithme revient donc à avoir des œillères numériques dont on ne connait pas le niveau d’occultation.

Autre problème : « De nombreux sites partent du principe que le comportement d'un utilisateur dans le passé détermine ses préférences futures. Ce dernier peut alors se retrouver enfermé dans des choix limités ».

Ce sujet revient régulièrement dans le cas des réseaux sociaux : des utilisateurs peuvent en effet se retrouver « enfermés » dans une bulle de connaissance avec des personnes partageant les mêmes idées, sans forcément voir l’océan des autres avis. On pense notamment aux adeptes des théories du complot. 

Cette constatation est aussi valable pour de la recommandation de produits : on vous proposera volontiers des articles en fonction de vos achats précédents. Le but pour les entreprises est d’essayer de maximiser les ventes, pas d’ouvrir vos chakras.

Pour Sihem Amer-Yahia, se retrouver « enfermé dans des choix limités » est un des trois principaux risques liés aux algorithmes.

Tracer des individus et discriminations

Le second risque concerne « le traçage de l’individu au travers de ses habitudes alimentaires, de ses loisirs ou de ses données médicales ». Nous avons déjà pu voir que le traçage sur Internet peut aller bien plus loin… Facebook, pour ne citer que lui, est un bon exemple.

Enfin, le dernier risque que la chercheuse souhaite mettre en avant « concerne le traitement inégalitaire, voire défavorable que peuvent subir certaines catégories de personnes en raison de leur appartenance ethnique, de leur lieu d’habitation, de leur âge ou de leurs préférences sexuelles ».

Les algorithmes de classement (pour des résultats sur un moteur de recherche, des personnes sur un site de rencontre, etc.) induisent un risque de discriminations : « À partir du moment où l’algorithme a fait ces choix, l’internaute va être exposé à certaines informations, ou à des individus lorsque le résultat de la recherche est une liste ordonnée de personnes, plus souvent qu’à d’autres ». Tout le monde n’est pas forcément conscient de cette réalité et surtout on n’a quasiment jamais accès aux algorithmes en question.

L’IA peut perpétuer et amplifier les biais des humains

La cause est finalement assez simple à comprendre : la grande majorité des plateformes utilisent les données de leurs utilisateurs (les réseaux sociaux en tête) pour leurs algorithmes et l’apprentissage de leurs intelligences artificielles.

Problème : « ces données sont biaisées puisqu’elles sont générées par des individus qui n’échappent pas aux préjugés de la société dans laquelle ils vivent. Les algorithmes vont ainsi avoir tendance à perpétuer des biais qui existent déjà dans les milieux professionnels en les amplifiant ».

Un exemple avait été trouvé par des chercheurs sur la plateforme Adsence de Google : « Les femmes se voyaient proposer des offres d’emploi moins bien rémunérées que celles adressées à des hommes, à niveau similaire de qualification et d’expérience ». 

Début 2019, les chercheurs Patrice Bertail (Université Paris Nanterre), David Bounie, Stephan Clémençon et Patrick Waelbroeck (Télécom ParisTech) résumaient ce problème en quatre mots : « Garbage in, garbage out », que l’on pourrait traduire par « foutaises en entrée, foutaises en sorties ».

Cela « fait référence au fait que même l’algorithme le plus sophistiqué qui soit produira des résultats inexacts et potentiellement biaisés si les données d’entrée sur lesquelles il s’entraîne sont inexactes ». Un exemple de foutaise (parmi tant d’autres) : en 2015, un algorithme de reconnaissance faciale de Google « a considéré qu’une personne de couleur noire présentait plus de similitudes avec l’objet "gorille" qu’elle avait été entrainée à reconnaitre qu’avec l’objet "humain" ».

Il y a aussi du positif

D’un autre côté, Sihem Amer-Yahia affirme que les algorithmes peuvent aussi contribuer à limiter la discrimination : 

« L’un des principaux intérêts de l’embauche algorithmique est qu’elle permet d’agir directement sur l’algorithme pour qu’il intègre par exemple à une sélection de candidats un certain pourcentage de personnes qualifiées pour le poste mais ayant peu d’expérience. En donnant simplement de nouvelles instructions à l’algorithme il est donc possible, en théorie, d’exposer a minima certains profils qui auraient été ignorés par un raisonnement algorithmique plus classique.

Il est bien plus difficile de modifier réellement le raisonnement humain à l’œuvre lors d’un processus de sélection : les motifs de discrimination à l’égard de certains candidats vont être à la fois plus nombreux et plus difficiles à écarter, pour la simple raison que tout un ensemble de facteurs président à la décision d’un individu.

C’est ce qu’a notamment montré le testing de grande ampleur, réalisé entre novembre 2018 et janvier 2019 par l’université Paris-Est Marne-la-Vallée à la demande du gouvernement français ».

Développer l’informatique sociale

La directrice de recherche espère également que « grâce aux récentes découvertes de l’informatique sociale », les environnements « favorisant les échanges professionnels tout en contribuant à améliorer la qualité des interactions sociales » se multiplieront à l’avenir.

« En tant qu’informaticiens, nous devons nous assurer que ces futurs outils de communication numériques seront davantage orientés vers le bien-être au travail en faisant en sorte qu’ils intègrent des valeurs et des principes humains dès leur conception » ; d’autant plus en cette période de crise sanitaire et de télétravail.

Plutôt que Zoom, WebEx ou encore Teams qui ont le vent en poupe depuis début 2020, elle met en avant Gather Town – une application mélangeant visioconférence et univers virtuel en 2D – qui est utilisé au Laboratoire d’informatique de Grenoble « pour organiser des événements en ligne à destination de nos étudiants ». 

Commentaires (11)


Ah donc maintenant, le terme d’algorithme va être systématiquement associé au machine learning ? C’est quoi le nouveau nom pour le truc qui permet de calculer une division euclidienne ou de trier une liste, dans ce cas ?



deltadelta a dit:


Ah donc maintenant, le terme d’algorithme va être systématiquement associé au machine learning ? C’est quoi le nouveau nom pour le truc qui permet de calculer une division euclidienne ou de trier une liste, dans ce cas ?




C’est aussi du machine learning puisque la hype autour de l’IA fait que tout le monde se lance dans des algos ultra complexes, absolument pas déterministes et souvent très mal maîtrisés et compris, pour faire des choses hyper simples. Et ils y sont encouragés par la même hype au niveau de l’entrepreneuriat : ça vend mieux de dire “je monte une activité basée sur l’IA” que “je monte une activité basée sur des régressions linéaires” quand bien même l’activité en question serait aussi bien servie par une régression linéaire (plus rapide et déterministe qui plus est)…



Tu peux remplacer régression linéaire par Dijsktra, A* ou n’importe quel algo considéré aujourd’hui comme bateau et has-been (une vision tellement conne de l’algorithmique que les bras m’en tombent quand j’entends ça surtout émanant de gens du métier).


Sauf que techniquement, une régression linéaire est bien de l’apprentissage automatique/statistique. C’est l’une des formes les plus simples et qui est pourtant à la base de nombreux autre algo d’apprentissage automatique lorsqu’on l’associe avec une fonction non linéaires (tous les modèles linéaires incluant la régression logistique, le SVM… et même le perceptron qui est la base des réseaux de neurones artificiels).



Pour la définition, on donne souvent celle de Tom Mitchell :
“Un programme informatique se dit d’apprendre de l’expérience E par rapport à une catégorie de tâches T et mesure de la performance P, si sa performance à des tâches T, telle que mesurée par P, s’améliore avec l’expérience E”



Si l’on reprend une régression linéaire, sans données, tu es dans la merde, avec 1 points, c’est pas beaucoup mieux, avec 2 tu ne feras pas de miracles, avec 4-5 tu peux déjà commencer à avoir des résultats avec une marge d’erreur acceptable et plus tu en rajoutes, plus tu réduit ton erreur. La régression linéaire s’améliore bien avec l’ajout de donnée, c’est donc un algo d’apprentissage automatique.



Au passage, en français on utilise aussi (mais plus rarement), le terme d’apprentissage statistique, car au final ce n’est que des stats appliquées.



Cependant, le terme d’Intelligence Artificielle… bof, c’est effectivement du commerciale avant tout. Ca sonne bien auprès du grand public, et ça marche bien après des investisseurs. Une IA n’est pas forcément un algo d’apprentissage automatique, un algo pour jouer au jeu d’échec peu très bien être déterministe (même si c’est conseiller d’utiliser un forme de random) et être considérer comme une IA selon certaines définitions (une IA de jeu de manière générale).



Le problème avec le terme “Intelligence Artificielle”, c’est qu’il n’y a pas vraiment de définition absolue. Il en existe de multiple qui ne pointes pas forcément sur le même aspect. C’est un terme qui est utiliser massivement pour des buts commerciaux.


Précisons : un algorithme n’est pas forcément du machine learning (ou de l’IA), loin de là. Par contre du machine learning, c’est toujours de l’algorithme. Pour paraphraser deathscythe0666, il serait beaucoup plus juste d’utiliser le terme “algorithme” pour du ML/IA que les termes ML/IA pour ce qui n’est qu’un algorithme tout ce qu’il y a de plus classique. Or effectivement ça n’est pas vendeur, donc on colle aujourd’hui l’étiquette ML/IA à n’importe quel algorithme, même simplissime, du moment qu’il brasse un grand nombre de données. Sauf que souvent ces données sont elles aussi simples, très structurées, et donc très loin de ce que l’on imagine être de l’intelligence artificielle.



Pour illustrer, quand on va allait dans les salons professionnels, il était devenu inconcevable de ne pas avoir l’un de ces mots (intelligence artificielle ou machine learning) sur son stand, ses plaquettes et ses slogans. Et dès que vous alliez discuter avec les représentants sur le stand, en leur demandant le fonctionnement de leur truc, on s’apercevait qu’il s’agissait la plupart du temps de fonctions basiques relevant d’algos traditionnels.



D’un point de vue personnel, je vois aussi mis en valeur des réussites de programmes de ML/IA. Mais quand on creuse, s’il est indiscutable que ces programmes donnent des résultats corrects, on se rend compte qu’on aurait obtenu les mêmes résultats de façon plus simple et plus efficaces avec des algos traditionnels mais avec un peu de réflexion et de conception au préalable.



J’ai peur qu’on ne s’en remette à des programmes d’IA le plus souvent par effet de mode et par paresse, en laissant le système “deviner” ce qu’on souhaiterait, avec souvent un résultat correct au prix d’un gaspillage formidable de ressources (CPU/RAM/disque/électricité) avec le risque supplémentaire de biais parfois très difficiles à rattraper. S’il est vrai qu’en théorie on peut corriger un algo qui déraille ou qui reproduit les biais humains, je suis pessimiste sur le fait que cela soit si simple que cela.



tazvld a dit:


Sauf que techniquement, une régression linéaire est bien de l’apprentissage automatique/statistique.




Oui et non. ça dépend de comment tu fais l’ajustement de tes variables en fonction de ton jeu de données. Il est très courant en science de faire de la régression linéaire avec de la SVD. On est très loin des trucs un peu “sensible”, genre descente de gradients boostés et autres algorithmes de minimisation/maximisation à base de métaheuristique.




Si l’on reprend une régression linéaire, sans données, tu es dans la merde, avec 1 points, c’est pas beaucoup mieux, avec 2 tu ne feras pas de miracles, avec 4-5 tu peux déjà commencer à avoir des résultats avec une marge d’erreur acceptable et plus tu en rajoutes, plus tu réduit ton erreur. La régression linéaire s’améliore bien avec l’ajout de donnée, c’est donc un algo d’apprentissage automatique.




Il y a pas d’apprentissage si tu as une simple optimisation ou minimisation qui découle d’un moindre carré. L’inversion et la multiplication matricielle c’est pas de l’apprentissage.




Le problème avec le terme “Intelligence Artificielle”, c’est qu’il n’y a pas vraiment de définition absolue. Il en existe de multiple qui ne pointes pas forcément sur le même aspect. C’est un terme qui est utiliser massivement pour des buts commerciaux.




+1. Mais avant ça, faudrait déjà que tout le monde se mettent d’accord avec la définition d’intelligence.


Pas du tout, tu peux faire de l’ajustement par divination si ça te chante, ce n’est pas ça qui importe. La définition d’apprentissage automatique ne fait intervenir que la nécessité d’expériences (données), mais ne parle aucunement de la manière dont elle est traité. Or, une régression linéaire, ça coche absolument toute les case d’un apprentissage supervisé. Après, comme je l’ai dit, c’est parmi les algos d’apprentissage automatique les plus simple du monde (je crois que pour avoir plus simple, c’est retourner toujours la moyenne des labels des données d’apprentissage, ça a l’avantage d’être moyennement mauvais).



Cette nécessité de donnée d’apprentissage s’oppose par exemple à algo de trie de liste par quicksort qui n’a besoin d’aucune donnée au préalable pour ajuster les paramètres interne pour réaliser sa tache.


tazvld

Pas du tout, tu peux faire de l’ajustement par divination si ça te chante, ce n’est pas ça qui importe. La définition d’apprentissage automatique ne fait intervenir que la nécessité d’expériences (données), mais ne parle aucunement de la manière dont elle est traité. Or, une régression linéaire, ça coche absolument toute les case d’un apprentissage supervisé. Après, comme je l’ai dit, c’est parmi les algos d’apprentissage automatique les plus simple du monde (je crois que pour avoir plus simple, c’est retourner toujours la moyenne des labels des données d’apprentissage, ça a l’avantage d’être moyennement mauvais).



Cette nécessité de donnée d’apprentissage s’oppose par exemple à algo de trie de liste par quicksort qui n’a besoin d’aucune donnée au préalable pour ajuster les paramètres interne pour réaliser sa tache.


Ok, je vois. Je pensais à tord que c’était aussi défini par le type d’algorithme pour l’apprentissage :chinois:


BlackLightning

Ok, je vois. Je pensais à tord que c’était aussi défini par le type d’algorithme pour l’apprentissage :chinois:


Dans le genre algo débile, j’ai fait par exemple allusion à la méthode des K plus proche voisin (KNN) qui est un autre algo d’apprentissage automatique supervisé, mais qui est plus utilisé en tant que classifier (classificateur en français ?), qui est aussi très simple :




  • Tu prends l’entrée que tu veux prédire la classe, tu prends les K données (K étant un valeur que tu as défini toi même en amont de l’apprentissage : c’est un hyperparamêtre) les plus proches dans ton jeu d’apprentissage. Tu regardes les classes et tu prends le mode (la classe la plus fréquente).



Après, je comprend que la régression linéaire est un outil tellement basique qu’il nous est difficile de considérer ça au premier abord comme un algo d’apprentissage supervisé, mais quand on s’en tient à la définition, ça colle bien.



Au final, c’est au contrairement un bon point de départ pour comprendre ce qu’est l’apprentissage supervisé. C’est facile à visualiser il est assez simple de comprendre les mathématique derrière, d’expliquer l’aspect statistique… et de là on peut facilement rajouter des couches de complexité (surtout que comme j’ai dit, la régression linéaire est vraiment un algo qui est la base d’un pan complet des algo d’apprentissage automatique).


tazvld

Dans le genre algo débile, j’ai fait par exemple allusion à la méthode des K plus proche voisin (KNN) qui est un autre algo d’apprentissage automatique supervisé, mais qui est plus utilisé en tant que classifier (classificateur en français ?), qui est aussi très simple :




  • Tu prends l’entrée que tu veux prédire la classe, tu prends les K données (K étant un valeur que tu as défini toi même en amont de l’apprentissage : c’est un hyperparamêtre) les plus proches dans ton jeu d’apprentissage. Tu regardes les classes et tu prends le mode (la classe la plus fréquente).



Après, je comprend que la régression linéaire est un outil tellement basique qu’il nous est difficile de considérer ça au premier abord comme un algo d’apprentissage supervisé, mais quand on s’en tient à la définition, ça colle bien.



Au final, c’est au contrairement un bon point de départ pour comprendre ce qu’est l’apprentissage supervisé. C’est facile à visualiser il est assez simple de comprendre les mathématique derrière, d’expliquer l’aspect statistique… et de là on peut facilement rajouter des couches de complexité (surtout que comme j’ai dit, la régression linéaire est vraiment un algo qui est la base d’un pan complet des algo d’apprentissage automatique).


Je comprends bien ce que tu dis. Ce qui m’avait fait réagir à tord (avec la confusion de la définition de l’algorithme), c ‘est que la méthode des moindres carrés appliquée à une combinaison linéaire est démontrée pour être le meilleur estimateur non-biaisé. (Théorème de Gauss-Markov). De mémoire, il y a aussi certaines conditions de distributions statistiques de l’erreur genre loi normale (mais c’est très courant dans les processus de mesures).



Bref, c’est qui m’avait amené à me dire : “Mais pourquoi s’embêter avec des algorithmes indéterministes (plus ou moins selon) alors qu’il y a une preuve mathématique et que la résolution se ramène “simplement” à de la bonne vieille et efficace algèbre linéaire, donc des librairies spécialisés existent ?“.



Merci de ton éclairage.



deltadelta a dit:


Ah donc maintenant, le terme d’algorithme va être systématiquement associé au machine learning ? C’est quoi le nouveau nom pour le truc qui permet de calculer une division euclidienne ou de trier une liste, dans ce cas ?




Oui je me suis fait la même remarque le mot algorithme ne correspond pas du tout à du machine learning. Il n’ya rien de programmé dans une IA basée sur du machine learning.


Fermer