ChatGPT, Bard et les nouvelles IA linguistiques à la mode sont basées sur la technologie des grands modèles de langage apparue dans la recherche en informatique en 2017. Quelles sont les évolutions dans ce champ depuis la création du premier grand modèle de langage ?
ChatGPT a ouvert la voie aux grands modèles de langage (en anglais, Large language models, LLM) pour toucher le grand public et a permis aux multinationales du numérique comme Google, Microsoft et Baïdu d'utiliser à plus grande échelle une technologie dont elles avaient posé les bases il y a cinq ans déjà.
Notre état des lieux sur les grands modèles de langage :
- Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?
- Où en sont les modèles d’IA génératifs ?
Mais les LLM sont en fait l'aboutissement d'un champ de recherche un peu plus vieux en informatique. Comme l'explique le chercheur en sciences de l'information et de la communication, Pierre-Carl Langlais, les modèles de langage viennent de la recherche en statistique sémantique née dans l'après deuxième guerre mondiale. À l'époque, des chercheurs d'IBM et de la Georgetown University montent une expérience dont l'idée est de proposer un programme de traduction du russe vers l'anglais.
Les résultats paraissent, en premier lieu, impressionnants, mais la présentation s'avère truquée. « Le programme ne connaît qu’un vocabulaire réduit de 250 mots en russe et en anglais et, surtout, seulement quelques règles de grammaire. Les phrases ont été commodément choisies en amont pour être correctement restituées », explique Pierre-Carl Langlais. Mais c'est suite à cette expérience que d'autres chercheurs vont s'intéresser au sujet. Et Warren Weaver propose de s'intéresser aux mots avant et après celui étudié, ce qu'on appelle une « fenêtre contextuelle ». C'est sur ce principe que les grands modèles de langage sont basés.
Les travaux dans ce champ ne s'arrêteront plus. Mais, selon Pierre Carl Langlais, « Weaver, comme tous les chercheurs qui se pencheront sur le sujet jusqu’aux années 2010, est immédiatement confronté à un écueil majeur : même en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Indépendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilités est un travail absolument inconcevable ».
Comme dans une grande partie des champs de recherche en intelligence artificielle, c'est avec la popularisation de l'utilisation des réseaux de neurones puis du deep learning que tout va changer.
T comme « transformeur »
Si les réseaux de neurones ont permis d'élargir la fenêtre contextuelle, une famille particulière de modèles d'apprentissage profond va se trouver particulièrement efficace dans le traitement automatique des langues : les modèles « transformers », d'où GPT tire son T.
En effet, en 2017, des chercheurs de Google constatent que la tendance du moment est d'imbriquer différents modèles complexes de réseaux de neurones les uns avec les autres, rendant les systèmes mis en place encore plus compliqués sans pour autant arriver à des résultats extraordinaires. Dans leur article scientifique au titre très explicite, « Attention Is All You Need », ils proposent de se concentrer sur un seul concept, celui de l' « attention ».
L'idée est non seulement de prendre en compte le contexte dans lequel un mot existe, mais aussi d'attribuer un poids d'importance à chaque mot et de pouvoir modifier ce poids au cours du traitement dans le réseau de neurones. Dans cet article, les chercheurs de Google proposent toute une architecture pour ce genre de réseaux de neurones, qu'ils nomment « transformer » et testent de façon concluante sur des capacités de traduction de l'anglais vers l'allemand et le français.
P comme « pré-entraîné »
Mais ces transformeurs font partie des algorithmes de deep learning. Pour les utiliser, il faut les entrainer sur un nombre important de données, ce qui demande beaucoup de temps de calcul. En 2018, Google propose donc des modèles de langage pré-entraînés que chacun peut utiliser : les modèles BERT pour « Bidirectional Encoder Representations from Transformers ».
La même année, la startup OpenAI – dont Elon Musk vient de quitter le conseil d'administration pour des raisons de conflit d'intérêts en tant que PDG de Tesla – publie, elle aussi, son transformeur pré-entrainé. Elle l'annonce dans un article [PDF] titré « Improving Language Understanding by Generative Pre-Training ». Generative Pre-Training, GPT, l'enchainement des trois lettres maintenant connues de tous. S'il n'est pas véritablement appelé de cette façon à l'époque, c'est la première version de GPT de la startup.
Mais en 2018, les modèles BERT restaient les modèles les plus intéressants. D'une part, ils sont bidirectionnels, c'est-à-dire qu'ils sont entraînés à la fois en fonction du contexte venant du texte en amont (à gauche) mais aussi venant du texte en aval (à droite) alors que les modèles GPT sont unidirectionnels. D'autre part, GPT est alors entraîné avec moins de paramètres et moins de données. La version « Large » de BERT se base sur 340 millions de paramètres et une collection de textes comportant 3,3 milliards de mots alors que la première version de GPT n'a que 117 millions de paramètres et s'appuie sur un corpus de textes beaucoup plus petit. Mais la startup prouve, ici, qu'elle est capable de proposer un modèle qui tient la route.
BERT déjà dans le moteur de recherche de Google
À l'époque, les équipes de Google sont donc à la pointe de la recherche sur le sujet et la multinationale annonce fièrement en octobre 2019 intégrer les modèles BERT dans son algorithme de moteur de recherche (pour les résultats en anglais). L'annonce a été répercutée dans les médias, mais ne fait pas autant de bruit que celle de l'utilisation par Microsoft de GPT dans Bing cette année.
Un modèle encyclopédique
Pendant ce temps-là, OpenAI investit pour créer la deuxième version de son modèle. Et la startup a bien compris qu'il fallait taper fort pour être le modèle utilisé par tout le monde. Avec ses 1,5 milliard de paramètres et un corpus de textes comprenant environ 10 milliards de mots, la startup s'assure d'être l'acteur principal du domaine sans avoir besoin d'ajouter de vraies nouveautés scientifiques dans le domaine.
Entraîné sur Wikipédia et deux corpus entiers de livres, GPT-2 est bien plus fin et a vu passer bien plus de mots que son ainé. Pour Pierre-Carl Langlais, GPT-2 est devenu un « modèle encyclopédique ». Ce qui ne veut pas dire qu'il restitue convenablement les faits, mais qu'il contient un très grand nombre de références au monde réel. Ce passage au niveau encyclopédique lui permet de nous faire croire qu'il est beaucoup plus savant.
GPT-3 et GPT-4 vont dans le même sens avec toujours plus de paramètres et un corpus de texte toujours plus large. Si OpenAI a ajouté un système de récompenses et de rétrocontrôle à GPT-3 pour sa version 3.5 adaptée pour ChatGPT, permettant un filtre des problèmes de réponses les plus gênants, le concept du grand modèle de langage n'a pas été amélioré à ce moment-là.
Mais en parallèle, chez Google, une cellule d'éthique de l'intelligence artificielle sonne l'alarme sur les dangers des grands modèles de langage. Si l'entreprise « règle » le problème en licenciant deux chercheuses qui ont participé à ces critiques, elle semble mettre en sourdine la médiatisation de sa recherche sur le sujet.
- Dangers des grands modèles de langage : des chercheuses avaient prévenu
- IA et éthique : aprés Timnit Gebru, Google enquête sur Margaret Mitchell, une autre de ses employées
Des modèles de moins en moins ouverts
Suivant OpenAI, les multinationales du numérique lui ont emboîté le pas pour construire chacune leur propre grand modèle de langage. Microsoft a son Megatron-Turing. Meta a créé Open Pretrained Transformer, mais aussi Large Language Model Meta AI (LLaMA). Google en a finalement créé d'autres comme GLaM, LaMDA ou Gopher (le dernier a été créé par DeepMind). Le Chinois Baidu a créé sa famille de grands modèles de langage Ernie et le russe Yandex a nommé le sien YaLM.
Mais si la recherche dans les grands modèles de langage se faisait d'abord de façon ouverte, proposant l'accès à tout le monde, la tendance est à la fermeture des modèles et soit à leur utilisation en interne, soit à la proposition d'accès par API.
Le projet BLOOM reste l'un des seuls à maintenir le cap de l'open science dans le domaine.