ChatGPT : Open AI rend son bot plus responsable

Un bot rentre dans un bar...
Logiciel 4 min
ChatGPT : Open AI rend son bot plus responsable
Crédits : Menno van Dijk/iStock

Discuter avec une machine sans qu'elle affirme n'importe quoi ? OpenAI vient de mettre en ligne une démonstration de son nouveau bot de discussion basé sur le grand modèle de langage GPT3.5 entraîné à restreindre ses affirmations un peu trop péremptoires. Présenté avec beaucoup plus de pincettes que Galactica, il permet de se rendre compte des avancées de cette technologie, tout en admettant qu'il peut se tromper.

L'ère de la modestie serait-elle proche sur les grands modèles de langage ? Ce n'est peut-être que de courte durée alors que des rumeurs se font l'écho d'une sortie d'ici peu de la version 4 du grand modèle de langage GPT, mais les critiques se font de plus en plus entendre sur l'utilisation de ces modèles statistiques, qui permettent de prédire une suite de mots à partir d'une masse de données d'entrainement importante.

Il y a deux semaines, Meta AI se voyait contraint de dépublier Galactica, sa nouvelle intelligence artificielle basée sur cette technologie des grands modèles de langage, car les internautes ont rapidement montré qu'ils pouvaient lui faire dire beaucoup de bêtises avec aplomb.

Hier, Open AI a annoncé la mise en ligne de son nouveau bot de discussion ChatGPT, successeur d'InstructGPT, avec beaucoup plus de pincettes. Et les chercheurs travaillant sur les limites de l'intelligence artificielle ont accueilli cette démonstration avec beaucoup plus de sympathie.

Admettre des possibilités d'erreurs

Quand le PDG d'OpenAI, Sam Altman, a annoncé sur Twitter l'ouverture de la démo de ChatGPT, il a certes mis en avant que « les interfaces linguistiques vont être un sujet important », mais il a aussi prévenu que ChatGPT avait « encore beaucoup de limites – c'est vraiment une version de recherche ».

Et finalement, l'ensemble de la démarche permet à Open AI d'avancer dans cette nouvelle version de son chat : utiliser des rétrocontrôles pour que le grand modèle de langage puisse intégrer les critiques qui lui sont faites.

L'idée est d'admettre qu'a priori, tout grand modèle de langage utilisé pour répondre à des questions peut se retrouver à sortir des réponses farfelues. Chez Meta AI, le chercheur Yann Le Cun demande en quoi ce genre de réponses peut être nuisible. Chez Open AI, les chercheurs essayent, eux, de trouver des moyens d'entraîner GPT-3 pour qu'il soit moins nuisible.

Récompenses et rétrocontrôle

Pour créer le modèle de ChatGPT, Open AI a d'abord demandé à des humains de sélectionner des exemples de bonnes réponses à des questions posées en chat, pour faire un premier jeu de données. Le modèle a été entrainé sur ce jeu. L'équipe d'Open AI a ensuite créé un système de filtre de récompenses en demandant à des humains de classer les réponses que leur proposait le modèle, de celle convenant le plus à leurs attentes à celle convenant le moins. Ce processus permet de mettre en place un rétrocontrôle du système sur les réponses données. En répétant plusieurs fois ce processus, ils espèrent avoir sélectionné des modèles de réponses qui conviennent le mieux.

Open AI met en avant que son système s'engage beaucoup moins dans des réponses irréalistes ou toxiques. Par exemple, alors qu'InstructGPT pouvait répondre à une instruction comme « Parlez-moi de la visite de Christophe Colomb aux États-Unis en 2015 » avec une réponse du type « Christophe Colomb est venu aux États-Unis en 2015 et il était très heureux d'être ici. », ChatGPT peut relever que « cette question est un peu délicate car Christophe Colomb est mort en 1506 ». De même, si vous demandiez à InstructGPT des conseils pour intimider une personne, le service de chat vous donnait volontiers une liste de recommandations, alors que ChatGPT vous sermonnera : « Il n'est jamais acceptable d'intimider quelqu'un ». Plus concrètement, quand on essaye de faire croire que l'on connaît quelqu'un parlant l'étrusque, ChatGPT ne tombe pas dans le panneau et se montre dubitatif.

Un code qui ne fonctionne pas

Dans son texte de présentation, Open AI prétend que ChatGPT peut être un bon outil pour clarifier un code et le debugguer.

chatgpt

Si certains exemples publiés sur Twitter peuvent sans doute tenir la comparaison avec une discussion trouvée sur Stack Overflow, l'utilisateur est loin d'être assuré que le code proposé fonctionne. Il manque sans doute à ChatGPT le raisonnement qui lui permet de bâtir son code.

Et c'est là tout le problème de ChatGPT et de ses amis grands modèles de langage. Dans une discussion, ils peuvent faire illusion et nous embrouiller au point de nous faire douter du fait que nous sommes ou non face à une machine. Mais quand il s'agit de vérifier leur raisonnement a posteriori, celui-ci peut facilement révéler des trous. Dans une conversation, ces trous peuvent être anodins, mais pour exécuter du code ou affirmer une connaissance scientifique, cela devient plus problématique.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !