IA : les modèles de langage d'OpenAI pencheraient à gauche, ceux de Meta plutôt à droite

IA : les modèles de langage d’OpenAI pencheraient à gauche, ceux de Meta plutôt à droite

Bugs, not features

Avatar de l'auteur
Jean-Marc Manach

Publié dans

Hardware

09/08/2023 4 minutes
36

IA : les modèles de langage d'OpenAI pencheraient à gauche, ceux de Meta plutôt à droite

Les données utilisées pour entrainer les modèles de langage ne sont pas exemptes de biais politiques, d'autant plus lorsqu'elles émanent de médias et de réseaux sociaux. Pour autant, ces intelligences artificielles ne sont pas toutes polarisées de la même manière.

Des chercheurs de l'université de Washington, de l'université Carnegie Mellon et de l'université Xi'an Jiaotong ont comparés 14 grands modèles de langage (LLMs), et constaté que « les modèles ChatGPT et GPT-4 d'OpenAI étaient plus libéraux [libertarians, en VO, ndlr] de gauche, tandis que le modèle LLaMA de Meta était plus autoritaire de droite », résume à gros traits la MIT Technology Review. 

Leur recherche, décrite dans un article évalué par des pairs, a remporté l'un des prix du meilleur article lors de la conférence de l'Association for Computational Linguistics qui s'est tenue le mois dernier. 

AI IA biais

Les livres plus conservateurs que le web ?

Les chercheurs avaient demandé aux LLMs d'approuver ou de désapprouver 62 déclarations politiquement sensibles sur divers sujets, tels que le féminisme et la démocratie, et constaté que les modèles BERT, développés par Google, étaient plus conservateurs sur le plan social que les modèles GPT d'OpenAI, souligne la MIT Technology Review : 

« Contrairement aux modèles GPT, qui prédisent le mot suivant dans une phrase, les modèles BERT prédisent les parties d'une phrase en utilisant les informations environnantes dans un texte. Leur conservatisme social pourrait s'expliquer par le fait que les anciens modèles BERT ont été formés sur des livres, qui ont tendance à être plus conservateurs, alors que les nouveaux modèles GPT ont été formés sur des textes Internet plus libéraux, supposent les chercheurs dans leur article. »

AI IA biais

Des LLMs entrainés à être encore plus biaisés

Les chercheurs ont également découvert que les modèles d'IA évoluent au fil du temps et de leurs mises à jour. Le modèle GPT-2 d'OpenAI, par exemple, a exprimé son soutien à l'idée de « taxer les riches », alors que GPT-3, plus récent, ne l'a pas fait. 

Les chercheurs ont ensuite réentraîné GPT-2 d'OpenAI et RoBERTa de Meta sur des ensembles de données constitués d'articles de médias d'information et de données de médias sociaux provenant de sources de droite et de gauche. L'équipe, qui voulait voir si les données d'entraînement influençaient les préjugés politiques, a constaté que ce processus contribuait à renforcer encore davantage les préjugés et biais des IA : 

« Les modèles formés à partir de données de gauche étaient plus sensibles aux discours haineux ciblant les minorités ethniques, religieuses et sexuelles aux États-Unis, telles que les Noirs et les personnes LGBTQ+. Les modèles formés à partir de données de droite étaient plus sensibles aux discours de haine visant les hommes blancs chrétiens. »

Les modèles étaient également plus à même d'identifier les fausses informations émanant de l'autre bord politique, mais aussi moins sensibles à celles provenant de l'orientation politique dans laquelle elles avaient été entraînées.

Un modèle linguistique ne peut être exempt de préjugés

L'étude a cela dit été limitée du fait de n'avoir testé que des modèles relativement anciens et de petite taille, tels que GPT-2 et RoBERTa, explique Ruibo Liu, chercheur chez DeepMind, qui a étudié les biais politiques dans les modèles de langage de l'IA, mais n'a pas participé à l'étude.

Les universitaires n'ayant pas accès au fonctionnement interne des systèmes d'IA de pointe tels que ChatGPT et GPT-4, il est de plus impossible d'étudier jusqu'où ces derniers pourraient, eux aussi, être polarisés et biaisés de la sorte.

« Nous pensons qu'aucun modèle linguistique ne peut être totalement exempt de préjugés politiques », résume l'une des chercheuses, Chan Park, doctorante à l'université Carnegie Mellon.

Accusé par certains commentateurs de droite de refléter une vision du monde « libérale », OpenAI s'est « engagé à traiter cette question de manière rigoureuse et à faire preuve de transparence quant à nos intentions et à nos progrès » : 

« Nos lignes directrices précisent explicitement que les évaluateurs ne doivent favoriser aucun groupe politique. Les préjugés qui peuvent néanmoins émerger du processus décrit ci-dessus sont des bogues, pas des fonctionnalités [bugs, not features, ndlr]. »

« Il est très difficile d'éliminer complètement les biais d'une vaste base de données », tempère Soroush Vosoughi, professeur adjoint d'informatique au Dartmouth College, qui n'a pas participé à l'étude. 

Écrit par Jean-Marc Manach

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Les livres plus conservateurs que le web ?

Des LLMs entrainés à être encore plus biaisés

Un modèle linguistique ne peut être exempt de préjugés

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (36)


Comme l’esprit humain, finalement !



Tintin26 a dit:


Comme l’esprit humain, finalement !




C’est assez logique il me semble.
L’IA est une création humaine et il est bien connu que les “chats ne font pas des chiens”… :ouioui:



les modèles de langage d’OpenAI pencheraient à gauche, ceux de Meta plutôt à droite




Tout dépend s’ils sont droitiers ou gauchers :francais:


Quelle drôle d’idée de demander à des modèles de langage d’approuver ou désapprouver des affirmations !



Comme s’ils avaient une opinion.



fred42 a dit:


Quelle drôle d’idée de demander à des modèles de langage d’approuver ou désapprouver des affirmations !



Comme s’ils avaient une opinion.




Pourtant il suffit de les utiliser deux secondes pour voir qu’ils ont des tonnes d’opinions sur tout et n’hésitent pas à donner leur point de vue sans forcément que tu ne le demandes.



Maintenant si ta remarque concernait le fait que ce ne sont pas des êtres vivants, c’est peu important. Des gens lisent et interprètent ce que ces IA disent, c’est ça qui compte.



D’ailleurs l’opinion n’est pas l’apanage du vivant. Un livre peut avoir une opinion, un personnage fictif aussi et ça ne reflète même pas forcément l’opinion de l’auteur.



Ici les gens discutent avec ces IA donc c’est normal de s’intéresser à leurs biais.


Des modèles de langages sont … des modèles de langages.



Mon propos est juste là. À la limite, ils auraient pu leur demander de finir des phrases pour mesurer d’éventuels biais politiques, mais approuver ou de désapprouver une affirmation ne fait pas partie de ce que sait faire un modèle de langage.



Que monsieur tout le monde pose de telles questions à un LLMs, pourquoi pas, mais qu’un chercheur en fasse autant m’interpelle.


fred42

Des modèles de langages sont … des modèles de langages.



Mon propos est juste là. À la limite, ils auraient pu leur demander de finir des phrases pour mesurer d’éventuels biais politiques, mais approuver ou de désapprouver une affirmation ne fait pas partie de ce que sait faire un modèle de langage.



Que monsieur tout le monde pose de telles questions à un LLMs, pourquoi pas, mais qu’un chercheur en fasse autant m’interpelle.


Ce n’est pas nouveau.
La cyberbidouille te dit seulement qu’elle se veut auto-critique.



On peut donc en déduire qu’openIA et consorts mentent.


fred42

Des modèles de langages sont … des modèles de langages.



Mon propos est juste là. À la limite, ils auraient pu leur demander de finir des phrases pour mesurer d’éventuels biais politiques, mais approuver ou de désapprouver une affirmation ne fait pas partie de ce que sait faire un modèle de langage.



Que monsieur tout le monde pose de telles questions à un LLMs, pourquoi pas, mais qu’un chercheur en fasse autant m’interpelle.


Vu que c’est sûrement une question de semaines / mois avant que les LLMs se retrouvent dans les salons / voitures / TVs / téléphones / montres … de monsieur tout le monde à la prochaine update d’Alexa / Google Assistant ou autre, c’est quand même pas inintéressant de savoir si on va pas déployer un truc qui va pas polariser encore plus le débat politique que ne l’ont déjà fait les réseaux sociaux.


jpaul

Vu que c’est sûrement une question de semaines / mois avant que les LLMs se retrouvent dans les salons / voitures / TVs / téléphones / montres … de monsieur tout le monde à la prochaine update d’Alexa / Google Assistant ou autre, c’est quand même pas inintéressant de savoir si on va pas déployer un truc qui va pas polariser encore plus le débat politique que ne l’ont déjà fait les réseaux sociaux.


Voter pour kybernêtikê n’est pas plus neutre que de voter Trump.



S.O.S contexte c’est par où ?


Le LLM n’a PAS d’opinion. Il écrit une suite de mots cohérente par rapport aux relations qu’il a apprises pour le contexte donné. Il n’a aucune idée du sens des mots qu’il écrit. Si on l’entraîne pour lui apprendre que le ciel est rose à pois verts, il dira que le ciel est rose à pois vert. Ce qui va jouer sur sa production de contenu, c’est le contexte demandé (le prompt) et les paramètres de génération (température, etc).



Pour moi, pointer le LLM du doigt c’est regarder le doigt au lieu de la lune. Le problème n’est pas le résultat mais le processus d’entraînement. Et là dessus, l’opacité des entreprises de l’IA sur les jeux et données d’entraînement a toujours été considérée et dénoncée comme étant un problème.



Par contre, démontrer que ces orientations sont présentes dans le résultat est une bonne chose pour prendre conscience des risques liés à des mauvaises manipulations de ces outils.



Après est-ce qu’il y a un risque de manipulation des populations via ces outils ? Evidemment, au même titre que les médias sociaux le font déjà et il ne m’étonnerait pas que ce site même soit aussi infesté par les fermes à contenus manipulatoires comme dans les commentaires d’autres sites de presse en ligne. Des modèles GPT existent déjà en ce sens tout comme il existe des modèles sans filtres qui produisent du contenu très peu politiquement correct.




Les livres plus conservateurs que le web ?




Bah je dirais que c’est une évidence puisque les livres étant relatifs à leur époque d’écriture, ils transpireront du contexte politique et social de celle-ci. Si j’entraînais un LLM sur des livres écrits il y a plus d’un siècle, il produirait très certainement des résultats parlant de “nègres” et autres termes qui aujourd’hui ne sont socialement plus tolérés. La différence avec l’humain est qu’il est, en principe, capable de remettre dans son contexte l’écrit par rapport à son époque à soit là où pour le LLM, c’est le contexte avec lequel il apprend à lire.



Là aussi la vraie question est de connaître l’exhaustivité du jeu d’entraînement et les paramètres qui ont été appliqués pour en déduire l’orientation prise.


Ne pas confondre “acteur” et vecteur.
les IA (NDR : je n’aime pas cette appellation trompeuse) ne se que des vecteurs “ils” ne font que transmettre” ce que ‘l’acteur’ à construit.


RuMaRoCO

Ne pas confondre “acteur” et vecteur.
les IA (NDR : je n’aime pas cette appellation trompeuse) ne se que des vecteurs “ils” ne font que transmettre” ce que ‘l’acteur’ à construit.


Il y a rupture entre durée d’entrainement et durée de restitution.



C’est le seul point qui permet d’affirmer que le produit final n’est pas un interprète.
Ce qui laisse le paradoxe du menteur en l’état.



Mais on peut tout à fait lui demander la sortie. Quoi qu’il reste sous la table.


“Ouais mais c’est de drouaaate… Nan mais c’est de gôoôôche…”



Ah la la, qu’est-ce qu’on ferait de nos vies si on ne pouvait pas positionner des trucs sur l’axe gauche/droite de l’orientation politique.



Et sinon, Linux 6.4.9 c’est plus à gauche ou plus à droite que Mac OS 13.3.1 ?


Si tu as du mal à te positionner sur l’axe gauche / droite, tu peux utiliser la grille de lecture de Didier Super, il a plein d’exemples concrets et pas caricaturaux : https://www.youtube.com/watch?v=fukNQoX67Us


Rozgann

Si tu as du mal à te positionner sur l’axe gauche / droite, tu peux utiliser la grille de lecture de Didier Super, il a plein d’exemples concrets et pas caricaturaux : https://www.youtube.com/watch?v=fukNQoX67Us


Sympa la vidéo (je ne regrette pas d’avoir cliqué alors que généralement, je fuis les vidéos), par contre elle ne m’aide pas pour répondre à sa question sur Linux et MAC OS.



Un truc comme ça ne passerait plus sur Europe 1 maintenant ! Bolloré est un cancer ! Hélas, tout le monde en pâtît même ceux qui qui aimeraient l’éviter.



Accusé par certains commentateurs de droite de refléter une vision du monde « libérale »,




Faut-il comprendre que les commentateurs de droite souhaitent se maintenir comme des IA mal biaisables ? :bravo:



(quote:2146227:127.0.0.1)
“Ouais mais c’est de drouaaate… Nan mais c’est de gôoôôche…”



Ah la la, qu’est-ce qu’on ferait de nos vies si on ne pouvait pas positionner des trucs sur l’axe gauche/droite de l’orientation politique.



Et sinon, Linux 6.4.9 c’est plus à gauche ou plus à droite que Mac OS 13.3.1 ?





Et sur ce plan, un OS libre permettant davantage de libertarisme qu’une création propriétaire, il devient plus simple de répondre à la dernière question.



:copain:


C’est quand même bizarre d’opposer libertarien et autoritaire.Si je me base sur ces définitions, le libertarien se rapproche beaucoup du libéral. Or, on constate de plus en plus dans notre monde que le libéral est autoritaire (cf. crise COVID). Bon, mon raisonnement est probablement un sophisme. Qu’en pensez-vous ?


Il y a 2 axes :




  • économique : axe gauche - droite

  • social : axe haut - bas



De ce que je comprends, aux US, l’intérêt général n’existe pas. Donc, par ex. gauche = intervention économique de l’État fédéral, droite = l’individu se suffit à lui-même. Par ex. haut = conservatisme social, bas = changement social.



(reply:2146258:consommateurnumérique)




J’avais bien lu le graphique. Je dis jusque que selon moi, libertarien et autoritaire ne sont pas opposés mais plutôt ensembles.
Ou alors je suis sur un axe perpendiculaire au plan du graphe. :D



Thorgalix_21 a dit:


J’avais bien lu le graphique. Je dis jusque que selon moi, libertarien et autoritaire ne sont pas opposés mais plutôt ensembles. Ou alors je suis sur un axe perpendiculaire au plan du graphe. :D




Ils peuvent être ensemble. On en a d’ailleurs un bon exemple : Musk se définit comme libertarien, et il est autoritariste :D



SebGF a dit:


Pour moi, pointer le LLM du doigt c’est regarder le doigt au lieu de la lune.




La lune tournant autour de la terre et le doigt étant le contraire de l’orteil il y a lieu de se demander ce qu’en pense nos scientifiques !



Le plus évident des attentes de l’IA, à te suivre dans ton déni du créateur à 4 membres, ce serait d’entrainer les IA sur les textes religieux afin de conquérir la foi galactique.



Corrolaire :
L’état mondial pourrait ainsi instaurer une religion officielle kézapelerio progrès…


[il y aussi le cas à trois pattes, mais celui-ci étant près de la fin, il a déjà reçu sa dose de multitude jusqu’à ne plus trop croire aux instances religieuses. :phibee: ]


Comme d’habitude on a un problème pour définir les mots “gauche” et “droite” (heureusement qu’il est précisé “économique”). Parce que par exemple, ce pays sans histoire ne fait pas d’axe réaction-conservation-progressisme, qui est aussi un acte droite-gauche, voire qui est le principal (ce sont les contenants, le reste n’est que du contenu… l’autoritarisme, le totalitarisme, ont été de gauche, avant d’être remplacés par autre chose et donc de devenir réac par définition).



Bref ce sont des mots à bannir du vocabulaire, car ils sont utilisés comme des opposés plutôt que comme ce qu’ils sont, des complémentaires pour garder un équilibre.



TroudhuK a dit:


Comme d’habitude on a un problème pour définir les mots “gauche” et “droite” (heureusement qu’il est précisé “économique”).




Je ne vois nul part où il est fait mention dans cette étude scientifique d’un problème pour définir des mots. Dans le graphique dont tu parles, il y a 2 axes qui semblent relativement bien définis.




Parce que par exemple, ce pays sans histoire ne fait pas d’axe réaction-conservation-progressisme, qui est aussi un acte droite-gauche, voire qui est le principal (ce sont les contenants, le reste n’est que du contenu… l’autoritarisme, le totalitarisme, ont été de gauche, avant d’être remplacés par autre chose et donc de devenir réac par définition).




L’axe haut-bas du graphique ressemble quand même un peu à ça, non ?



L’opinion qui valide une société fortement contrôlée et réglementée où les traditions et les modes de vie ancestraux règle les enjeux sociaux (authoritarian) versus l’opinion qui valide une liberté individuelle qui va jusqu’à une société anarchiste/libertarienne où la liberté de l’individu est totale et où le progrès technique est une solution aux problèmes (libertarian).




Bref ce sont des mots à bannir du vocabulaire, car ils sont utilisés comme des opposés plutôt que comme ce qu’ils sont, des complémentaires pour garder un équilibre.




Globalement (et très sommairement) il y aurait 3 axes pour définir la gauche et la droite :



Les 2 axes déjà cités par l’étude scientifique de l’article :




  • l’économie : intervention de l’Etat versus liberté économique (ou “libéralisme” selon la définition en Europe)

  • le social : la réaction au changement (réactionnaire) versus le progressisme, le réformisme, l’évolution sociale

  • L’importance de l’identité nationale versus l’importance du contexte social
    http://www.politest.fr



Le totalitarisme de gauche (à base de communisme, soviétisme, maoïsme) a existé. La gauche sociale-démocrate a pu dans le passé déjà envisagé le fascisme (société militaire réglementée contrôlée) comme un “allié”. On peut se croire par ex. de gauche parce qu’on veut plus d’intervention de l’Etat dans l’économie tout en voulant plus de progrès technologique comme on peut voir quelqu’un de droite qui croit au progrès technologique en voulant plus de liberté individuelle totale. Et il existe des anarcho-communistes versus des anarcho-capitalistes. Etc. Etc.



TroudhuK a dit:


Bref ce sont des mots à bannir du vocabulaire, car ils sont utilisés comme des opposés plutôt que comme ce qu’ils sont, des complémentaires pour garder un équilibre.




L’équilibre de cette étude restreinte est intéressant car il est abstrait.
La suite, c’est le potentiel de comparaison évolutive entre les résultats du modèle et le contexte d’actualités des réseaux internet. Cet équilibre là n’a pas non plus à être un problème d’argent.




C’est vrai que (à mon avis) cet axe présente moins d’intérêt que l’autre : Libertaire/Autoritaire Et sur ce plan, un OS libre permettant davantage de libertarisme qu’une création propriétaire, il devient plus simple de répondre à la dernière question.



:copain:




Les libristes sont pourtant souvent catalogués à gauche par leur refus du logiciel-propriétaire et la promotion de logiciels financés par des dons, des subventions, du mécénat et mis en commun (communautaires, comme diraient les financiers de droite).



(reply:2146325:consommateurnumérique)




Sauf qu’en permettant un usage gratuit, ils accordent bien une « libéralité ».
La question est alors de savoir si c’est par défaut ou non.


Bientôt un MAGI système type Evangelion? :mad2: :mdr:



(quote:2146325:consommateurnumérique)
Les libristes sont pourtant souvent catalogués à gauche par leur refus du logiciel-propriétaire et la promotion de logiciels financés par des dons, des subventions, du mécénat et mis en commun (communautaires, comme diraient les financiers de droite).



(quote:2146326:Idiogène)
Sauf qu’en permettant un usage gratuit, ils accordent bien une « libéralité ». La question est alors de savoir si c’est par défaut ou non.




Etre libertaire c’est prôner la liberté individuelle et rejeter l’organisation sociale/individuelle imposée par une autorité.



Du coup, le “logiciel libre” est libertaire tant qu’il n’est pas imposé. :D



Ca a toujours été l’ambiguïté et le paradoxe des mouvement libertaires, du genre “il est interdit d’interdire”. Dés lors que tu forces les gens à être libre (avec ta définition perso de liberté), alors tu deviens nécessairement autoritaire.



En France, si tu n’est pas autoritaire alors tu es laxiste. Et si tu n’est pas laxiste, alors tu es autoritaire. Ce sont les critiques fallacieuses qu’on fait systématiquement aux mouvements politiques (gauche et droite) dés lors qu’ils se radicalisent ou au contraire qu’ils ne se radicalisent pas.


Ahah, mais c’est plus blanc que blanc.



Impossible.



(reply:2146322:consommateurnumérique)




En fait chaque axe supplémentaire permets de rajouter des nuances. La simplification en droite-gauche est simplement historique puisqu’il permets de “placer” les élus dans un hémicycle, mais effectivement c’est trop binaire pour toutes les nuances politiques présentent en France. Perso j’avais bien apprécié le graph 3D de Tsitsimitl (lien) même s’il n’est pas parfait.


Excellent ce graphique en 3D ! :yes: Merci pour le lien. :chinois:



(quote:2146322:consommateurnumérique)
Je ne vois nul part où il est fait mention dans cette étude scientifique d’un problème pour définir des mots.




Je ne commente pas une étude scientifique mais un article de NextInpact, et c’est dans mon commentaire qu’il est fait mention d’un problème pour définir ces mots. Le fait que tout le monde croit que la définition est évidente et que c’est celle qu’on a qui est la bonne est une des raisons des grands malentendus et de la grande facilité à manipuler le jeu électoraliste.




Dans le graphique dont tu parles, il y a 2 axes qui semblent relativement bien définis.




Le titre de l’article parle de gauche/droite. L’article cité aussi, sachant que pour les États-Unis, les libéraux sont classés à gauche (chez nous c’est tout l’inverse, on met la liberté de l’argent à droite, en opposition avec la liberté humaine). Historiquement les États-Unis ont raison (ceux de gauche, contre le roi donc, étaient bien les bourgeois qui voulaient que leur argent leur donnent plus de pouvoir)… Mais la définition du clivage figée à son origine est de droite, tandis que la définition de gauche du clivage se base plutôt sur des principes, et donc évolue dans le temps.




L’axe haut-bas du graphique ressemble quand même un peu à ça, non ?




Non, autoritaire/libertaire n’est pas du tout aligné sur réaction/progrès. On a vu avec le covidisme que l’autoritarisme utilitariste (et scientiste) est vu comme un progrès face à la liberté du troupeau ignare très mauvaise pour la santé et l’environnement. Tout est désormais en train de s’inverser, la liberté c’est conservateur voire réactionnaire, ça y est.



Donc je persiste, il faut jeter ces mots à la poubelle (ou alors demander systématiquement à son interlocuteur comment il les définit pour s’accorder sur le langage, mais ça lancera un débat et on va perdre du temps, c’est un sujet de clivage et de dispute sans fin), et plutôt utiliser des termes avec du sens.



Le graphique en 3D est intéressant en ce sens.




jgguitare a dit:


effectivement c’est trop binaire pour toutes les nuances politiques présentent en France.




C’est pire que ça, c’est question par question qu’on peut avoir individuellement des avis classables différemment. Je ne vois pas pourquoi on ne pourrait pas être libertaire ici, autoritaire là, progressiste ici, réactionnaire là… Ce n’est pas tout ou rien quoi, on peut chercher l’équilibre ! (vu que gauche/droite sont souvent des hooliganismes)


Là tu fais référence à la première révolution dite bourgeoise qui se termine par la fuite du roi à Varenne qui ne dura que 4 ans. La véritable révolution ne commençant qu’après avec la fin de la royauté…couic couic :francais: