GPT-3.5 et GPT-4 régresseraient-ils ?

Ptêt' ben qu'oui...
GPT-3.5 et GPT-4 régresseraient-ils ?
Crédits : Yasmin Dwiputri/Data Hazards Project/Better Images of AI

Alors que des utilisateurs des modèles de langages d'OpenAI GPT-3.5 et 4 commençaient à se demander si leurs outils perdaient en acuité, des chercheurs de Stanford et Berkeley ont comparé leurs performances entre mars et juin 2023.

Les grands modèles de langage popularisés par ChatGPT sont souvent utilisés via leurs API, parce qu'ils ont encore besoin de puissance pour tourner mais aussi, tout simplement, parce que leurs sources ne sont pas diffusées pour une bonne partie d'entre eux.

C'est notamment le cas pour les populaires GPT-3.5 et GPT-4, modèles de langages utilisés par ChatGPT. Leurs utilisateurs n'ont pas la main dessus et ne peuvent que les interroger. Or, depuis quelque temps, certains se demandaient si les performances de ces deux modèles ne baissaient pas.

Le problème est que personne, à part OpenAI, ne sait réellement comment et quand leur base de connaissances est mise à jour. L'entreprise leader du marché est aussi la plus discrète sur son outil. Cette discrétion a d'ailleurs poussé Google à demander à ses chercheurs de ne pas publier leurs travaux tant qu'ils n'étaient pas déjà utilisés par l'entreprise.

Du côté de Meta, de façon assez inhabituelle, les équipes de recherche de Yann Lecun jouent les bons élèves de l'open source en publiant tous leurs modèles. Mais aucun d'entre eux ne divulgue clairement les corpus sur lesquels ils entrainent leurs outils. Il n'y a guère que le modèle BLOOM qui essaye de respecter au mieux les canons de la science ouverte (open science).

Il est donc difficile de se faire sa propre idée des performances de ces outils et de savoir dans quelles mesures ils s'améliorent ou s'ils régressent.

Comparaison sur différentes tâches

James Zou et ingjiao Chen, deux chercheurs de l'Université de Stanford, ont collaboré avec le chercheur de Berkeley et cofondateur de la startup Databricks Matei Zaharia pour évaluer les évolutions des réponses de GPT-3.5 et GPT-4 au fil du temps, et ont mis en ligne [PDF] leur étude sur le site de prépublication arXiv.

Passant comme tout utilisateur par l'API de ChatGPT, ils ont testé les versions de mars et juin 2023 en leur posant diverses questions comme la résolution de problèmes de maths, répondre à des questions sur des sujets sensibles, la génération de code ou de « raisonnement visuel », des tâches fréquemment utilisées pour évaluer les performances de ce genre d'intelligence artificielle.

« Notre objectif ici n'est pas de fournir une évaluation globale, mais de démontrer qu'il existe une dérive substantielle des performances de ChatGPT pour des tâches simples », expliquent-ils.

Évaluation GPT IA Crédits : Lingjiao Chen, Matei Zaharia, James Zou

Ils ont, par exemple, regardé si un code généré par le modèle de langage était directement exécutable, si les réponses à une question de maths étaient exactes. Mais ils ont aussi fait attention à des choses secondaires dans les résultats, comme la longueur d'une réponse ou l'acuité du raisonnement proposé.

Une chaine de pensée potentiellement problématique

Dans leur étude, ils observent que, sur une tâche de résolution mathématique comme celle d'identifier si un nombre est premier ou non, la précision de GPT-4 s'effondre entre mars et juin de 97 % à 2 % alors que celle de GPT-3.5 augmente de 7 % à 86 %. Ces résultats sont corrélés avec une réponse beaucoup plus courte de GPT-4 alors que GPT-3.5, au contraire, propose une réponse plus longue.

Les chercheurs font l'hypothèse que, lorsque le modèle produit une chaîne de pensée cohérente (et donc suffisamment longue pour l'être), la réponse est généralement meilleure. Mais cela reste qu'une hypothèse basée sur une corrélation.

Concernant les réponses aux questions dites « sensibles », ils constatent que GPT-4 a tendance à moins y répondre en juin  (5 %) qu'en mars (21 %), alors que GPT-3.5 y répond plus en juin (8 %) qu'en mars (2 %). GPT-4 a aussi tendance à s'expliquer de manière plus succincte quand il refuse de répondre.

En juin, GPT-4 semblait contrer plus facilement les attaques contre ce système, bridant les réponses de ChatGPT. Seulement 31 % des attaques dites de « jailbreaking » testées par les chercheurs arrivaient à passer outre alors qu'en mars, 78 % y parvenaient. Pour GPT-3.5, l'écart n'est pas assez signifiant pour repérer une évolution : la plupart des attaques fonctionnent toujours sur cette version.

Du code moins directement exécutable

Ayant créé une nouvelle base de données de code pour tester spécifiquement les grands modèles de langage, les trois chercheurs ont pu repérer que de mars à juin, le code généré par la version 4 comme par la version 3.5 de GPT était beaucoup moins souvent directement exécutable. Ils avancent l'hypothèse que ChatGPT, dans les deux versions, génèrerait plus de textes n'étant pas du code (notamment des commentaires). Ces parties entraineraient potentiellement des problèmes de syntaxe.

Concernant les tâches de raisonnement visuel (dont un exemple est présenté ci-dessous), les chercheurs n'ont pas constaté d'évolution significative.

Évaluation GPT IA 2 Crédits : Lingjiao Chen, Matei Zaharia, James Zou

On peut donc dire que cette étude a tendance à donner raison à certaines critiques se plaignant d'une évolution des performances de ces modèles n'allant pas toujours vers les résultats attendus, contrairement à ce que martelait encore la semaine dernière l'un des vice-présidents d'OpenAI, Peter Welinder, sur Twitter :

« Non, nous n'avons pas rendu le GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente.

Hypothèse actuelle : lorsque vous l'utilisez plus intensément, vous commencez à remarquer des problèmes que vous n'aviez pas vus auparavant. »

Logan Kilpatrick, responsable des relations avec les développeurs chez OpenAI, a d'ailleurs répondu à Matei Zaharia sur Twitter, après la mise en ligne de l'article, que « l'équipe est au courant des régressions signalées et les examine ».

Certains chercheurs émettent des critiques sur l'étude depuis qu'elle a été mise en ligne. Arvind Narayanan, professeur au Princeton Center for Information Technology Policy, trouve surtout qu'elle peut être mal interprétée : « l'article montre un changement de comportement, pas une diminution des capacités. Et il y a un problème avec l'évaluation - sur une tâche, nous pensons que les auteurs ont confondu mimétisme et raisonnement », renvoyant à son billet pour de plus amples détails.

Un manque de transparence flagrant

L'étude ne donne guère de réponses précises sur les évolutions des modèles d'OpenAI. En revanche, elle montre les problèmes dus au manque de transparence vis-à-vis de ces modèles.

Interrogé par Ars Technica, le développeur Simon Willison exprime très bien le problème : « comment sommes-nous censés construire un logiciel fiable sur une plateforme qui change de manière mystérieuse et non documentée tous les quelques mois ? ».

En publiant ChatGPT en premier, OpenAI a été capable de se hisser au premier rang des leaders de l'intelligence artificielle. Mais son manque de transparence risque de lui faire perdre la confiance des utilisateurs professionnels qui ne peuvent pas bâtir de solutions stables pour les produits dérivés de sa solution. Ceux-ci se tourneront-ils vers des solutions open source ?

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !