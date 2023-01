Quand on a écrit sur les débats que ravivait ChatGPT, l’autre jour, toutes les personnes consultées ont dit à peu près la même chose : ces grands modèles de langages (Large Language Models, LLM) posent de nouveaux risques en matière d’information. Pour l'informaticienne, mathématicienne et directrice de recherche au CNRS Claire Mathieu, en particulier, c’est « un risque d’intégrité de l’information » que posent ces machines.

Jusqu’à présent, pointe la co-autrice d’une tribune sur les problématiques soulevées par ChatGPT, il fallait beaucoup plus de temps pour produire des articles, (scientifiques, journalistiques ou autres), que pour les lire, se faire son avis, décider si le résultat final était convaincant ou non.

Avec des modèles génératifs, « ce rapport entre temps de production et temps de vérification est inversé ». Les machines peuvent créer des textes convaincants en un minimum de temps, ce qui signifie qu’il devient simple de submerger n’importe quelle instance en charge de vérifier la qualité de la production qui lui est soumise : une conférence en charge de trier des soumissions scientifiques, des secrétaires de rédaction, des législateurs, le public lorsqu’il doit trier les vraies informations des fausses, etc.

Directeur de recherche à l’Inria, Serge Abiteboul s’inquiète de son côté de la perspective de couplage de ce type de technologie avec des moteurs de recherche : « si on remplace les résultats par une réponse de chatbot, ça risque de faire un peu ligne du parti ». Bing ou Google, quand on y pense, fournissent toujours une série de réponses quand on lui soumet une requête. Un robot conversationnel construit comme ChatGPT, lui, ne donne qu’une réponse unique.

Si l’on reprend la formulation du youtubeur Monsieur Phi, la différence entre un moteur de recherche et un LLM avec une interface similaire à celle de ChatGPT, c’est que si vous leur posez une question, le premier ne vous donne pas de réponse claire, mais plein de sources pour vous faire votre propre avis, tandis que le second vous donne une réponse (sur un ton parfois très sûr de lui)… mais aucune source pour vérifier son affirmation.

Le problème des sources et des filtres

Certes, OpenAI reste silencieux sur le détail des données qui ont servi à entraîner son modèle. Cependant, pour réussir à amasser les centaines de milliards de paramètres qui ont été nécessaires à l’entraînement de ChatGPT, il y a fort à parier que l'entreprise s’est fournie là où le contenu s’amasse sans cesse et gratuitement… c’est-à-dire en ligne.

Or « il faut être conscient que, parmi les données du web, même écrites par des humains, il peut y avoir autant de choses vraies que de fausses » indique Laure Soulier, chercheuse au sein de l’équipe Machine Learning and Information Access (MLIA) de l’Institut des systèmes intelligents et de robotique. À la valeur de l’information s’ajoutent « tous les biais classiques, le racisme, le sexisme » que l’on retrouve dans les contenus en ligne, même si « ceux-ci peuvent être modérés, au moins en partie, par les constructeurs ».

Sauf que ce genre de filtrage, quelles qu’en soient les raisons, fait aussi craindre à Serge Abiteboul une forme « d’uniformisation du discours, de pensée moralisatrice. Je ne dis pas que c’est mal, je n’en sais rien en réalité, je demande simplement si c’est ce qu’on veut. » Débat d’autant plus difficile à trancher que les spécificités exactes de l’entraînement du modèle manquent de transparence.

Surtout, rappelle Claire Mathieu, le robot n’est pas conçu pour donner une réponse, mais bien pour calculer la probabilité que la phrase ou le texte qu’il formule soit plausible. Cela peut expliquer, au moins en partie, qu’il produise « des phrases convenues, des textes qui, actuellement, ont tous une certaine similarité les uns avec les autres », voire qu’il recrache, à quelques légères modifications près, des éléments trouvés dans son jeu d’entraînement.

Le fiasco CNET : le salut ne viendra (peut-être) pas du bâtonnage automatisé