Quels pourraient être les effets de ChatGPT sur l’information ?

Quels pourraient être les effets de ChatGPT sur l’information ?

Père Castor...

Avatar de l'auteur
Mathilde Saliou

Publié dans

Société numérique

26/01/2023 9 minutes
17

Quels pourraient être les effets de ChatGPT sur l’information ?

Mêlés aux moteurs de recherches, intégrés dans le travail des médias… qu’est-ce que les grands modèles de langage laissent présager pour le monde de l’information ? 

Quand on a écrit sur les débats que ravivait ChatGPT, l’autre jour, toutes les personnes consultées ont dit à peu près la même chose : ces grands modèles de langages (Large Language Models, LLM) posent de nouveaux risques en matière d’information. Pour l'informaticienne, mathématicienne et directrice de recherche au CNRS Claire Mathieu, en particulier, c’est « un risque d’intégrité de l’information » que posent ces machines.

Jusqu’à présent, pointe la co-autrice d’une tribune sur les problématiques soulevées par ChatGPT, il fallait beaucoup plus de temps pour produire des articles, (scientifiques, journalistiques ou autres), que pour les lire, se faire son avis, décider si le résultat final était convaincant ou non. 

Avec des modèles génératifs, « ce rapport entre temps de production et temps de vérification est inversé ». Les machines peuvent créer des textes convaincants en un minimum de temps, ce qui signifie qu’il devient simple de submerger n’importe quelle instance en charge de vérifier la qualité de la production qui lui est soumise : une conférence en charge de trier des soumissions scientifiques, des secrétaires de rédaction, des législateurs, le public lorsqu’il doit trier les vraies informations des fausses, etc. 

Directeur de recherche à l’Inria, Serge Abiteboul s’inquiète de son côté de la perspective de couplage de ce type de technologie avec des moteurs de recherche : « si on remplace les résultats par une réponse de chatbot, ça risque de faire un peu ligne du parti ». Bing ou Google, quand on y pense, fournissent toujours une série de réponses quand on lui soumet une requête. Un robot conversationnel construit comme ChatGPT, lui, ne donne qu’une réponse unique.

Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. 

 

Le problème des sources et des filtres

Certes, OpenAI reste silencieux sur le détail des données qui ont servi à entraîner son modèle. Cependant, pour réussir à amasser les centaines de milliards de paramètres qui ont été nécessaires à l’entraînement de ChatGPT, il y a fort à parier que l'entreprise s’est fournie là où le contenu s’amasse sans cesse et gratuitement… c’est-à-dire en ligne.

Or « il faut être conscient que, parmi les données du web, même écrites par des humains, il peut y avoir autant de choses vraies que de fausses » indique Laure Soulier, chercheuse au sein de l’équipe Machine Learning and Information Access (MLIA) de l’Institut des systèmes intelligents et de robotique. À la valeur de l’information s’ajoutent « tous les biais classiques, le racisme, le sexisme » que l’on retrouve dans les contenus en ligne, même si « ceux-ci peuvent être modérés, au moins en partie, par les constructeurs ».

Sauf que ce genre de filtrage, quelles qu’en soient les raisons, fait aussi craindre à Serge Abiteboul une forme « d’uniformisation du discours, de pensée moralisatrice. Je ne dis pas que c’est mal, je n’en sais rien en réalité, je demande simplement si c’est ce qu’on veut. » Débat d’autant plus difficile à trancher que les spécificités exactes de l’entraînement du modèle manquent de transparence.

Surtout, rappelle Claire Mathieu, le robot n’est pas conçu pour donner une réponse, mais bien pour calculer la probabilité que la phrase ou le texte qu’il formule soit plausible. Cela peut expliquer, au moins en partie, qu’il produise « des phrases convenues, des textes qui, actuellement, ont tous une certaine similarité les uns avec les autres », voire qu’il recrache, à quelques légères modifications près, des éléments trouvés dans son jeu d’entraînement. 

Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé

Côté média, il se trouve qu’une rédaction a pris le parti de lancer une expérimentation. En novembre, lorsque ChatGPT a été rendu public, le magazine américain CNET a décidé de l’utiliser pour tester le fait d’écrire (et publier) des articles. Premier problème : la démarche a manqué de transparence. 

Ce n’est qu’après la publication de plus de 70 articles signés « l’équipe de CNET money » ou du nom de Justin Jaffe, le chef de la rubrique, qu’un autre média a révélé que ces articles ont été au moins partiellement écrits par un modèle algorithmique similaire à ChatGPT. CNET s’est justifié quelques jours plus tard, mais the Verge en a remis une couche, démontrant qu’une bonne partie des articles en question étaient, certes, de très bonnes machines à référencement sur Google, mais qu’ils regorgeaient d’erreurs.

Une des problématiques rapportée par des membres de la rédaction est liée à la qualité de ces outils. Que des robots soient capables de produire des articles quasiment indifférenciables de ceux écrits par des humains, dans le monde de l’information, pose le problème d’intégrité évoqué par Claire Mathieu.

Car un relecteur n’adoptera pas du tout la même démarche pour relire la production de ses collègues humains (dont il sait qu’ils ont enquêté, réfléchi, travaillé au sens et à la qualité de l’information fournie) que celle d’un robot qui, lui, ne fait que calculer la probabilité que le texte soit cohérent, sans avoir aucune notion du sens que celui-ci produit.

Finalement, CNET a mis sa production automatisée sur pause, « jusqu’à nouvel ordre ». La rédactrice en chef Connie Guglielmo a déclaré qu’en cas de nouvelle expérimentation, celle-ci serait publicisée plus ouvertement. Quelques jours plus tard, il est devenu évident qu’en plus des problèmes déjà rencontrés, une bonne partie des articles générés par apprentissages machine valaient plagiat, d’articles de CNET lui-même, de Forbes Advisor ou encore de Bankrate. 

Génération rapide et automatisée… de faible qualité ? 

Pour Claire Mathieu, peut-être qu’en fait la démocratisation d’outils comme ChatGPT va faciliter la production d’éléments textuels assez banals, un peu comme les productions de CNET, surtout destinées à booster son référencement sur Google. Le problème n’est pas neuf – pensez aux pop-up, aux bandeaux publicitaires diffusant de fausses pubs aux pieds d’articles au sujet de vraies informations, voire aux trolls automatisés qui pourrissent la conversation en ligne –, il prendrait juste une nouvelle ampleur.

Mais peut-être qu’en retour, continue la mathématicienne, « cela va forcer ceux dont le métier consiste à produire des textes à faire mieux, à augmenter le niveau ». Un peu comme en mathématiques, où « quand on a inventé la calculatrice, ça n’a pas privé les professionnels de travail : ça a modifié la nature de leurs tâches vers plus de sophistication ». 

Des outils pour aider à produire de l’information ? 

Chercheuse en éthique de l’intelligence artificielle au CNRS, Giada Pistilli ne dit rien de très différent quand elle suggère que les LLMs pourraient avoir une véritable utilité pour des usages simples : « ça peut aider à transformer un texte en présentation à bullet points ou, à l’inverse, à formater des idées en un texte complet, voire à les poétiser, pourquoi pas… » Il ne s’agit pas, dans ce cas-là, de donner de l’information, de répondre à une question, mais bien d’aider à présenter la réponse ou l’idée que le producteur humain souhaite formuler. 

Côté médias, les modèles algorithmiques peuvent aussi servir – et servent déjà – à la recherche, à l’enquête, voire à la production de l’information, tant qu’ils accompagnent les journalistes et que leur présence est clairement signalée au lectorat. Aux États-Unis, par exemple, The Associated Press utilise Wordsmith depuis 2014, pour des textes répétitifs et plein de formules convenues –  rapports financiers, résultats sportifs, etc. 

Des LLMs peuvent aussi servir à trier les centaines de questions relatives à la Covid-19 que posent les lecteurs, comme ç’a été fait par la radio publique de Los Angeles KPCC. Chez Reuters, des outils de classification similaires à ceux utilisés dans les banques pour détecter de la fraude à la carte de crédit servent à détecter des événements dignes d’être traités dans le flux des publications déversées sur les réseaux sociaux. Et ainsi de suite.

Entre l’éducation aux médias et l’éducation au numérique

Les effets des modèles d’intelligence artificielles sur l’information sont « un problème d’éducation », pointe l’éthicienne. Encore plus qu’avant, il faut « souligner le besoin d’aller toujours vérifier ses sources ». Il faut voir aussi que « l’assurance avec laquelle un modèle peut formuler une réponse nous pousse à lui faire confiance », alors qu’en réalité, un modèle à la ChatGPT n’a aucune idée du sens des réponses qu’il formule.

Si ces éléments sont expliqués, compris, appris, rien n’empêche, en revanche, d’utiliser des outils algorithmiques pour produire des éléments d’information. Sur LinkedIn et ailleurs en ligne, on s’échange déjà des listes d’outils permettant, au choix, de nettoyer ou de créer des images ou du son, de mettre en place facilement un chatbot, d’améliorer son SEO, de corriger sa grammaire… Toutes sortes d’usages, pas forcément intéressants à faire à la main, mais très pratiques à déléguer à un robot.

Écrit par Mathilde Saliou

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Le problème des sources et des filtres

Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé

Génération rapide et automatisée… de faible qualité ? 

Des outils pour aider à produire de l’information ? 

Entre l’éducation aux médias et l’éducation au numérique

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (17)


Cet article a-t-il été écrit par ChatGPT ? :mad2: :mad2:


Non car selon l’article et la citation



“Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. “



ChatGPT ne citerait aucune source.



En fait ChatGPT c’est comme certains journalistes utilisant la formulation “selon des sources bien informées” à tout bout de champ
:humour:


ange_nico

Non car selon l’article et la citation



“Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation. “



ChatGPT ne citerait aucune source.



En fait ChatGPT c’est comme certains journalistes utilisant la formulation “selon des sources bien informées” à tout bout de champ
:humour:


Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.


Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.


+1
Avec l’hyperlien, ce n’est pas si difficile. Mais cet outil est dévoilé dans les articles pour de la redirection trackée vers contenu commerciaux.


Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.


+1
Avec l’hyperlien, ce n’est pas si difficile. Mais cet outil est DEVOYÉ dans les articles pour de la redirection trackée vers contenu commerciaux.


Thoscellen

Alors trouves moi des journalistes qui mettent leur sources dans leur articles, parce que y’a un packet d’article dont j’ai bien envie d’étrangler l’auteur pour ne pas être foutu de donner ses sources … en particulier les articles de loi et les différents codes.


Une fois sur 2 je l’écris dans une autre langue, alors je suis pas capable de mémoriser la bonne ortho de ce mot :p


si vous êtes abonné à Arrêt sur Images, l’émission du 20 janvier était très à propos.Mathilde était une invitée :)


La première partie de l’article m’a beaucoup fait penser aux chroniqueurs/experts des plateaux télé qu’on peut voir partir en roue libre et débiter du verbe comme ChatGPT :mad2:


Je ne peux qu’être d’accord avec le dernier paragraphe. Lorsque Wikipédia est apparu au début des années 2000, il y a eu une levée de boucliers indiquant que l’encyclopédie n’était pas fiable et qu’il fallait systématiquement vérifier les sources. C’était une très bonne nouvelle. Malheureusement, je pense que Wikipédia reste l’un des rares médias pour lequel certain(e)s internautes vérifient les sources. Ça ne s’est donc pas diffusé à l’ensemble des médias ; par exemple combien de personnes remettent en cause une information donnée lors d’un journal télévisé ou par un journal papier tel que Le Monde ?



Peut-être que l’arrivée de ChatGPT permettra de faire une piqûre de rappel sur l’absolue nécessité de ne pas croire tout ce qu’on entends ou lit sans en avoir vérifié la source.


Comme tout outil, ChatGPT peu être utilisé à des fins néfastes, le niveau moyen des campagnes de phishing risque d’augmenter et de rendre plus compliqué leur détection.



Quand on voie aujourd’hui l’influence sur les réseaux sociaux des ferme de trolls, couplé à la puissance de l’automatisation et de réponse bien plus plausible, ça risque de faire des étincelles.


Les contre-mesures aux effets pervers ne peuvent être techniques quand un robot a un discours plus évolué que beaucoup d’humains.



Un texte, un article, un blog, bientôt une vidéo, bref tout contenu non généré manuellement par un humain, ou sur l’initiative et la supervision active d’un humain, devrait être indiqué explicitement comme tel, et l’absence de mention relever du pénal.



Le risque est de voir tous les médias et réseaux sociaux submergés de machines discutant entre elles, isolant les humains totalement manipulés entre eux.



Quels pourraient être les effets de ChatGPT sur l’information ?
Père Castor…




Ho cette référence :mdr:



va lire l’article



krvm a dit:


Le risque est de voir tous les médias et réseaux sociaux submergés de machines discutant entre elles, isolant les humains totalement manipulés entre eux.




Car ce n’est pas déjà le plan cyber de chaque état par CSP ? :censored:


Une mise en perspective très intéressante, loin du sensationnalisme qu’on peut trouver par ailleurs. Merci !


Est-ce que des chercheurs ont déjà étudié le biais de “récursivité” ?



Je m’explique :
jour 1 : publication d’articles écrits par des humains
jour 2 : publication d’articles écrits par une IA sur la base du jour 1
jour 3 : publication d’articles écrits par une IA sur la base des jours 1 et 2
jour 4 : publication d’articles écrits par une IA sur la base des jours 1, 2 et 3



Vu qu’il s’agit d’une approche statistique/probabilistique, est-ce qu’il n’y a pas un risque à terme que l’IA “tourne en rond” à force d’être entrainée majoritairement (uniquement ?) sur ce qu’elle a elle même produit plus tôt ?


C’est déjà le cas sur la quasi-intégralité du paysage médiatiques :



-Philosophe de TV (LEVI, ONFRAY)
-Chroniqueurs
-Editorialistes
-Pigiste (ça dépend des fois mais majoritairement c’est payer à la page…)
-Horoscope
etc.



Tu prends des journées TV de cette année (violence en banlieue, pouvoir d’achat, vilain immigrés etc.) et tu compares avec des journaux des années 60 , tu verras c’est la même chose, parfois à la virgule près.



Tu as des dénonciation que les journaux se copie les uns les autres : 90% des articles viennent de dépêches AFP qui font 3 lignes et qu’ils te sortent en 5 paragraphes rempli de vide (forcément, la source fait 3 lignes), le reste est copié/collé de site en site sans vérification (un truc dit à TF1 se retrouve partout dans la Presse, et 2j après tout le monde se rend compte que c’était faux).



Tous des boulots dont la seule compétence est de faire un texte “vraisemblable”, “bien écrit”, avec du rythme mais AUCUNES compétences sur le sujet en question.



Ils répètent d’ailleurs sempiternellement la même chose de plateau en plateau et d’article en article (les mêmes citations, les mêmes tournures, les même logorrhées), même a plusieurs semaines/mois d’intervalles (alors qu’un avis ça se met à jour avec l’arrivée de nouvelles informations normalement).



On pourrait TOUS les remplacer par un algorithme comme ChatGPT qu’on n’y verrait que du feu.
La véracité n’y perdrait rien (et encore, ChatGPT est filtré/orienté vers le consensuel, donc on y gagnerait certainement), plus de diversité (les sources de ChatGPT étant plus varié, et on peut lui demander de s’exprimer “comme un X”) et ça marche avec n’importe quel sujet, du plus banal au plus pointu, là où on chroniqueur pourrait sécher si il ne comprend pas la question.