Responsable innovation chez Viseo, Ari Kouts a décidé de tester ce que divers modèles d’IA générative seraient capables de faire en matière de génération de site web. Ses tests en cours : Tech Generation, qui produit des brèves sur l’actualité de la tech, et Cuisine Generation, sites de recettes de cuisine.
Depuis la sortie de ChatGPT et de Midjourney, dans Next INpact et partout ailleurs, on a parlé des risques et des potentialités qu’ouvrent modèles d’IA génératifs. Mais en pratique, lorsque ces technologies sont utilisées dans un contexte appliqué, que valent-elles ? Est-ce qu’elles peuvent faire tourner un site aussi efficacement que le feraient des humains ?
Développeur et responsable innovation chez Viseo, Ari Kouts a voulu se faire son propre avis. « Jusque-là, les gens avaient beaucoup utilisé ChatGPT depuis son interface publique, explique-t-il. Celle-ci est très accessible, mais présente ses propres cadres et ses propres garde-fous, or, je me demandais si les gens avaient vraiment compris à quel point ce type de technologie est malléable. »
Fin mars, il se plonge donc du côté payant du portail ouvert par OpenAI et décide de créer un premier site, Tech Generation, pour tester « jusqu’où ChatGPT permettait d’aller en termes de bâtonnage de dépêches ». Rapidement, il lance un second projet, Cuisine Generation, « qui lui est plus axé sur la créativité puisqu’il s’agit de créer des recettes. »
- ChatGPT ravive les débats autour des compétences de l'intelligence artificielle
- Quels pourraient être les effets de ChatGPT sur l’information ?
- ChatGPT, Bard et les autres, agents de désinformation massive ?
- Où en sont les modèles d’IA génératifs ?
Un processus en quatre étapes
Si, pour le premier projet, Ari Kouts a choisi d’angler son titre sur les technologies, c’est qu’il a le sentiment que dans ce monde-là, « il y a beaucoup de reprises de sites étrangers, de dépêches, une partie non négligeable du travail qui consiste à reprendre des articles écrits ailleurs ».
À partir de cette idée, la mise en place du dispositif est relativement simple. Le développeur crée pour commencer des personnages de journalistes, « Vianney Garret » et « Nina Gavetière », auxquels il donne une biographie, un style, une manière d’écrire.
« Sur ce site-là, j’en ai construit un qui a un ton humoristique, qui essaie de faire des blagues dans ses articles », tandis que la seconde est plutôt « dans une logique d’enquête, elle cherche à poser des questions, à ouvrir le débat en fin d’article. Je ne sais pas si les gens qui utilisent ChatGPT en mode public en sont conscients, mais du côté payant, on peut aller assez loin dans les requêtes ». Il est possible de dire à la machine « tu es une journaliste » ou n’importe quel autre rôle, « tu écris selon tel style », « un article de telle longueur », etc.
Deuxième étape de son processus de publication, Ari Kouts crée un « comité éditorial », un système qui consiste à trier automatiquement dans les flux RSS de médias américains pour choisir un nombre précis d’articles à soumettre au modèle d’IA. La machine est ensuite chargée de rédiger son article à partir du modèle - sur Tech Generation, elle cite sa source à chaque fois - puis de publier, automatiquement, encore une fois, « sans passer par une quelconque étape de relecture ».
Sur Cuisine Generation, le développeur a créé un processus similaire en tous points, à ceci près qu’il ne s’agit pas de copier des recettes existantes, mais de les fabriquer de toutes pièces. Pour ce site-là, il a par ailleurs créé quatre profils d’auteurs, auxquels il a encore une fois donnée des personnalités spécifiques. « Il y en a un à qui j’ai donné un attrait pour les plats aux influences multiculturelles, une autre qui est censée beaucoup aimer le piment, dans certains cas, je les ai fait rajouter des blagues ou des anecdotes familiales… »
À la différence de Tech Generation, ce second titre ne fournit aucune source puisqu’il s’agit de génération pure. « Il est possible que les proportions soient incohérentes, ou que les recettes ne soient pas bonnes », souligne Ari Kouts, qui a prévu d’en tester quelques-unes dans les jours à venir (l’histoire ne dit pas s’il optera pour les improbables brochettes de bœuf aux fraises).
Automatisation simple
Au total, la création des deux sites n’a pris que quelques heures à Ari Kouts, le temps d’un week-end. « 500 lignes de code », un CMS Wordpress, une création de flux RSS… « Rien de tout ça n’était compliqué, raconte-t-il. La partie la plus complexe a été de créer les prompts (requêtes, ndlr) et de les tester suffisamment pour que le résultat soit efficace. »
Pour les illustrations, il a opté pour une sélection automatique sur la banque d’images libres de droit Unsplash pour Tech Generation. Côté Cuisine, en revanche, c’est Stable Diffusion qui est mis à contribution pour illustrer les recettes. Depuis début avril, explique le développeur, « je ne touche plus à Tech Generation et franchement le site peut fonctionner tel quel pour un usage de curation pure ».
Au 2 mai, le premier site comptait 970 articles, sachant qu’Ari Kouts a forcé la partie « comité éditorial » de son robot à choisir cinq articles maximum tous les deux heures, puis celle « rédaction » à en écrire deux maximum par heures. Sur le second, le rythme est plus réduit, avec une recette toutes les 4 heures (570 avaient été publiées le 2 mai).
Lorsqu’il se retourne sur l’expérience, Ari Kouts estime que la construction des sites entièrement génératifs a été relativement simple, mais qu’il a fallu réfléchir à une série de lignes directrices pour qu’ils fassent réellement illusion. Le style des articles, leur format, « de 5 à 8 paragraphes, avec toujours un exergue », la spécification du nombre de personnes et du temps de préparation pour les recettes… C’est lui qui a tout spécifié. « On donne un cadre à la machine, et elle n’en sort pas : elle exécute précisément ce que vous lui avez demandé ».
C’est aussi lui qui fournit à la machine la liste des 100 derniers articles parus pour l’empêcher de reproduire des articles ou des recettes déjà faites. Au fil du temps, Ari Kouts remarque tout de même que Cuisine Generation développe des « obsessions » particulières : « si vous remontez aux toutes premières publications, les titres de recettes étaient assez plats, ils se contentaient de décrire certains aliments ». À un moment, sans qu’aucune raison évidente n’émerge, le robot a commencé à publier des titres pour chacune de ses recettes : « La valse des saveurs printanières », « La danse envoûtante des fruits exotiques ». « Depuis, les titres sont tous sous ce format. »
L'autre élément marquant est celui des blagues : « Plusieurs lecteurs en ont signalé qui n'avaient pas trop de sens. Mais à part ça, il y a peu de problèmes, les publications restent dans l'ensemble très cohérentes. »
Des effets contrastés sur l'information
Le 1er mai, l’entreprise Newsguard a publié une étude recensant une cinquantaine de « newsbots », des sites d’actualités générés par IA. « Quand on s’y penche, ces sites-là sont très mal faits, on repère très vite que ça n’est pas écrit des humains » estime Ari Kouts en comparant avec ses expérimentations.
Tout de même, c’est précisément parce qu’il était intéressé par les questions de fausses informations, d’« ère de la post-vérité » que le développeur dit s'être lancé dans son expérience. « Je pense que ces problématiques existaient déjà, que ce soit en utilisant Photoshop ou en écrivant n’importe quoi, il y avait déjà besoin de vérifier les informations sur lesquelles on tombait en ligne, expose-t-il. Je ne suis pas sûr que les modèles génératifs y changent fondamentalement quelque chose. »
- ChatGPT invente un cas de harcèlement sexuel et accuse une personne réelle
- AI Act : l’IA générative pourrait être régulée par niveaux
- Le Bureau européen des consommateurs demande une enquête sur ChatGPT
Que ce soit dans leurs slogans - « la technologie générée autrement », « la cuisine générée, pour vous ! » - ou dans leurs pages « À propos », Tech Generation et Cuisine Generation mentionnent en plusieurs endroits être le produit de technologies génératives. ChatGPT est même explicitement nommé comme directeur de la rédaction. Est-ce suffisant pour alerter le lectorat sur la particularité des deux sites ? Difficile à dire.
Ari Kouts remarque tout de même qu’il a pu s’inscrire à Google news sans problème particulier, et qu’il arrive désormais que certaines recettes de son site automatisé se retrouvent dans l’onglet « Discover » de Chrome. « Ça apparaît donc à des endroits où l’on pourrait croire que la sélection est humaine. Donc là, oui, on peut se demander quels sont les garde-fous en place. » Il a aussi tenté de créer une histoire de toute pièce, avec ChatGPT au texte et Stable Diffusion à l’image, pour la mettre sur Wikipédia, « pour poser la question de la gestion de ce flux d’informations ». Il en rit : « La page a été effacée en quelques heures, et je me suis pris quelques insultes de wikipédiens au passage. »
Qu’est-ce que ces technologies impliquent pour la production d’information, celle qui est vérifiée cette fois ? « Une automatisation complète me paraît franchement peu intéressante pour les sites d’informations sérieux » répond le développeur. Il croit ces modèles éventuellement intéressants pour les journalistes, pour les aider à accélérer dans l’écriture, mais « parmi les enjeux qui restent, il y a ceux de la relecture : il y aura toujours besoin d’un humain pour vérifier qu’il n’y a pas d’erreurs. » La tentative d’automatisation opérée par le magazine CNET en novembre, qui s’était soldée par la publication de plusieurs dizaines d’articles complètement faux, tend à lui donner raison. « Par ailleurs, ça ne sert à rien d’écrire automatiquement des millions d’articles : qui va les lire ? »
- Vie privée et propriété intellectuelle bousculées dans les jeux d’entraînement des IA génératives
- Le Hub France IA publie une note d’impact sur ChatGPT
Pour lui, les modèles génératifs peuvent non seulement aider dans le travail, « peut-être faciliter l’écriture de brèves pour dégager du temps pour tout ce qui demande d’être recoupé, vérifié, où le style doit être plus travaillé ». En cela, se dit Ari Kouts, peut-être que les modèles d’IA génératifs participeront à pousser les lecteurs à chercher des contenus de plus grande qualité, « voire à payer pour ». Il met ici le doigt sur une série d’interrogations qui agitent largement le milieu médiatique. Si beaucoup - nous compris - se sont inquiétés des risques nombreux posés par les modèles génératifs, les prises de position explorant les effets positifs des modèles génératifs se sont aussi multipliés.
On a par exemple vu le rédacteur en chef adjoint du média suisse Heidi news argumenter que « l’IA peut être une chance pour le journalisme », la radio Couleur 3, toujours en Suisse, tester l’usage de l’IA le temps d’une journée. Les formations se multiplient, aussi, qui visent à aider les journalistes à prendre en main ces technologies. Dans le même temps, le gagnant du Sony World Photography Award 2023 a refusé son prix, révélant qu’il avait créé sa photo de toutes pièces grâce à un modèle d’IA.
Bref, les débats sur les effets des modèles génératifs sur l'information restent bien loin d’être épuisée.