Mêlés aux moteurs de recherches, intégrés dans le travail des médias… qu’est-ce que les grands modèles de langage laissent présager pour le monde de l’information ?
Quand on a écrit sur les débats que ravivait ChatGPT, l’autre jour, toutes les personnes consultées ont dit à peu près la même chose : ces grands modèles de langages (Large Language Models, LLM) posent de nouveaux risques en matière d’information. Pour l'informaticienne, mathématicienne et directrice de recherche au CNRS Claire Mathieu, en particulier, c’est « un risque d’intégrité de l’information » que posent ces machines.
Jusqu’à présent, pointe la co-autrice d’une tribune sur les problématiques soulevées par ChatGPT, il fallait beaucoup plus de temps pour produire des articles, (scientifiques, journalistiques ou autres), que pour les lire, se faire son avis, décider si le résultat final était convaincant ou non.
Avec des modèles génératifs, « ce rapport entre temps de production et temps de vérification est inversé ». Les machines peuvent créer des textes convaincants en un minimum de temps, ce qui signifie qu’il devient simple de submerger n’importe quelle instance en charge de vérifier la qualité de la production qui lui est soumise : une conférence en charge de trier des soumissions scientifiques, des secrétaires de rédaction, des législateurs, le public lorsqu’il doit trier les vraies informations des fausses, etc.
Directeur de recherche à l’Inria, Serge Abiteboul s’inquiète de son côté de la perspective de couplage de ce type de technologie avec des moteurs de recherche : « si on remplace les résultats par une réponse de chatbot, ça risque de faire un peu ligne du parti ». Bing ou Google, quand on y pense, fournissent toujours une série de réponses quand on lui soumet une requête. Un robot conversationnel construit comme ChatGPT, lui, ne donne qu’une réponse unique.
- Microsoft veut utiliser ChatGPT pour booster Bing
- Microsoft lance AzureOpenAI, de vastes ambitions pour l’intelligence artificielle
Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation.
Le problème des sources et des filtres
Certes, OpenAI reste silencieux sur le détail des données qui ont servi à entraîner son modèle. Cependant, pour réussir à amasser les centaines de milliards de paramètres qui ont été nécessaires à l’entraînement de ChatGPT, il y a fort à parier que l'entreprise s’est fournie là où le contenu s’amasse sans cesse et gratuitement… c’est-à-dire en ligne.
Or « il faut être conscient que, parmi les données du web, même écrites par des humains, il peut y avoir autant de choses vraies que de fausses » indique Laure Soulier, chercheuse au sein de l’équipe Machine Learning and Information Access (MLIA) de l’Institut des systèmes intelligents et de robotique. À la valeur de l’information s’ajoutent « tous les biais classiques, le racisme, le sexisme » que l’on retrouve dans les contenus en ligne, même si « ceux-ci peuvent être modérés, au moins en partie, par les constructeurs ».
Sauf que ce genre de filtrage, quelles qu’en soient les raisons, fait aussi craindre à Serge Abiteboul une forme « d’uniformisation du discours, de pensée moralisatrice. Je ne dis pas que c’est mal, je n’en sais rien en réalité, je demande simplement si c’est ce qu’on veut. » Débat d’autant plus difficile à trancher que les spécificités exactes de l’entraînement du modèle manquent de transparence.
Surtout, rappelle Claire Mathieu, le robot n’est pas conçu pour donner une réponse, mais bien pour calculer la probabilité que la phrase ou le texte qu’il formule soit plausible. Cela peut expliquer, au moins en partie, qu’il produise « des phrases convenues, des textes qui, actuellement, ont tous une certaine similarité les uns avec les autres », voire qu’il recrache, à quelques légères modifications près, des éléments trouvés dans son jeu d’entraînement.
Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé
Côté média, il se trouve qu’une rédaction a pris le parti de lancer une expérimentation. En novembre, lorsque ChatGPT a été rendu public, le magazine américain CNET a décidé de l’utiliser pour tester le fait d’écrire (et publier) des articles. Premier problème : la démarche a manqué de transparence.
Ce n’est qu’après la publication de plus de 70 articles signés « l’équipe de CNET money » ou du nom de Justin Jaffe, le chef de la rubrique, qu’un autre média a révélé que ces articles ont été au moins partiellement écrits par un modèle algorithmique similaire à ChatGPT. CNET s’est justifié quelques jours plus tard, mais the Verge en a remis une couche, démontrant qu’une bonne partie des articles en question étaient, certes, de très bonnes machines à référencement sur Google, mais qu’ils regorgeaient d’erreurs.
Une des problématiques rapportée par des membres de la rédaction est liée à la qualité de ces outils. Que des robots soient capables de produire des articles quasiment indifférenciables de ceux écrits par des humains, dans le monde de l’information, pose le problème d’intégrité évoqué par Claire Mathieu.
Car un relecteur n’adoptera pas du tout la même démarche pour relire la production de ses collègues humains (dont il sait qu’ils ont enquêté, réfléchi, travaillé au sens et à la qualité de l’information fournie) que celle d’un robot qui, lui, ne fait que calculer la probabilité que le texte soit cohérent, sans avoir aucune notion du sens que celui-ci produit.
Finalement, CNET a mis sa production automatisée sur pause, « jusqu’à nouvel ordre ». La rédactrice en chef Connie Guglielmo a déclaré qu’en cas de nouvelle expérimentation, celle-ci serait publicisée plus ouvertement. Quelques jours plus tard, il est devenu évident qu’en plus des problèmes déjà rencontrés, une bonne partie des articles générés par apprentissages machine valaient plagiat, d’articles de CNET lui-même, de Forbes Advisor ou encore de Bankrate.
Génération rapide et automatisée… de faible qualité ?
Pour Claire Mathieu, peut-être qu’en fait la démocratisation d’outils comme ChatGPT va faciliter la production d’éléments textuels assez banals, un peu comme les productions de CNET, surtout destinées à booster son référencement sur Google. Le problème n’est pas neuf – pensez aux pop-up, aux bandeaux publicitaires diffusant de fausses pubs aux pieds d’articles au sujet de vraies informations, voire aux trolls automatisés qui pourrissent la conversation en ligne –, il prendrait juste une nouvelle ampleur.
Mais peut-être qu’en retour, continue la mathématicienne, « cela va forcer ceux dont le métier consiste à produire des textes à faire mieux, à augmenter le niveau ». Un peu comme en mathématiques, où « quand on a inventé la calculatrice, ça n’a pas privé les professionnels de travail : ça a modifié la nature de leurs tâches vers plus de sophistication ».
Des outils pour aider à produire de l’information ?
Chercheuse en éthique de l’intelligence artificielle au CNRS, Giada Pistilli ne dit rien de très différent quand elle suggère que les LLMs pourraient avoir une véritable utilité pour des usages simples : « ça peut aider à transformer un texte en présentation à bullet points ou, à l’inverse, à formater des idées en un texte complet, voire à les poétiser, pourquoi pas… » Il ne s’agit pas, dans ce cas-là, de donner de l’information, de répondre à une question, mais bien d’aider à présenter la réponse ou l’idée que le producteur humain souhaite formuler.
Côté médias, les modèles algorithmiques peuvent aussi servir – et servent déjà – à la recherche, à l’enquête, voire à la production de l’information, tant qu’ils accompagnent les journalistes et que leur présence est clairement signalée au lectorat. Aux États-Unis, par exemple, The Associated Press utilise Wordsmith depuis 2014, pour des textes répétitifs et plein de formules convenues – rapports financiers, résultats sportifs, etc.
Des LLMs peuvent aussi servir à trier les centaines de questions relatives à la Covid-19 que posent les lecteurs, comme ç’a été fait par la radio publique de Los Angeles KPCC. Chez Reuters, des outils de classification similaires à ceux utilisés dans les banques pour détecter de la fraude à la carte de crédit servent à détecter des événements dignes d’être traités dans le flux des publications déversées sur les réseaux sociaux. Et ainsi de suite.
Entre l’éducation aux médias et l’éducation au numérique
Les effets des modèles d’intelligence artificielles sur l’information sont « un problème d’éducation », pointe l’éthicienne. Encore plus qu’avant, il faut « souligner le besoin d’aller toujours vérifier ses sources ». Il faut voir aussi que « l’assurance avec laquelle un modèle peut formuler une réponse nous pousse à lui faire confiance », alors qu’en réalité, un modèle à la ChatGPT n’a aucune idée du sens des réponses qu’il formule.
Si ces éléments sont expliqués, compris, appris, rien n’empêche, en revanche, d’utiliser des outils algorithmiques pour produire des éléments d’information. Sur LinkedIn et ailleurs en ligne, on s’échange déjà des listes d’outils permettant, au choix, de nettoyer ou de créer des images ou du son, de mettre en place facilement un chatbot, d’améliorer son SEO, de corriger sa grammaire… Toutes sortes d’usages, pas forcément intéressants à faire à la main, mais très pratiques à déléguer à un robot.