Une équipe de Meta AI a travaillé pendant plusieurs années sur une intelligence artificielle, Cicero, jouant au jeu de plateau Diplomatie. Résultat, après 40 parties anonymes en ligne, Cicero s'est classée dans les 10 % meilleurs joueurs ayant effectué plus d'une partie, avec une moyenne atteignant plus du double de celle des joueurs humains.
Après Deep Blue, AlphaGo, Nook et AlphaStar, voici Cicero qui rentre dans le game des IA joueuses. Cicero, elle, joue au fameux jeu de plateau Diplomatie. Et plutôt avec succès puisqu'elle arrive à être classée dans les 10% des meilleurs joueurs du site WebDiplomacy. Une équipe de Meta AI vient de publier un article dans la revue Science expliquant son fonctionnement.
Jouer aux échecs, au go, au bridge ou à StarCraft, comme ces autres avaient réussi à le faire à un bon niveau reste impressionnant.
Mais pour réussir à faire une IA qui joue à un bon niveau aux échecs ou au go, deux jeux où aucune information n'est cachée, il « suffit » d'utiliser l'apprentissage profond, et l'apprentissage par renforcement qui apprennent en jouant contre eux-mêmes avec une capacité de calcul et de modélisation suffisante.
Pour le bridge, les chercheurs de la start-up française Nukkai avaient utilisé des simulations de Monte-Carlo, outils mathématiques qui estiment les résultats possibles d'un événement incertain, optimisées avec de petits réseaux de neurones, ce qui leur avait permis d'être beaucoup moins énergivore qu'AlphaGo.
Pour StarCraft, les chercheurs qui ont bâti AlphaStar, qui a mis une déculottée à deux joueurs pros, ont dû ajouter à l'apprentissage profond et à l'apprentissage par renforcement, la théorie des jeux et des algorithmes évolutionnistes.
Diplomatie, un jeu plus complexe
Mais ces jeux restent des jeux où il n'y a pas de communication, ni de concertation à avoir avec les autres joueurs. L'équipe de Meta AI a voulu s'attaquer à un jeu plus complexe, Diplomatie.
Ce jeu mêle stratégie, discussions avec les autres joueurs, collaboration et... trahisons aux bons moments. Les bases du jeu sont que sept joueurs (représentant l'Angleterre, la France, l'Allemagne, l'Italie, l'Autriche-Hongrie, la Russie et la Turquie) mènent des négociations privées (en chat pour la version en ligne WebDiplomacy sur laquelle a joué Cicero) pour coordonner leurs actions afin de coopérer et de rivaliser les uns avec les autres en donnant des ordres à leurs unités militaires sur un plateau de jeu qui reprend la carte de l'Europe.
Allier raisonnements stratégiques et modèle de langage
Pour créer Cicero, les chercheurs de Meta AI ont allié des modèles d'IA pour le raisonnement stratégique comme ceux de Deep Blue, AlphaGo ou de AlphaStar avec un modèle de langage proche de celui de BART.
Ce modèle de langage, nommé R2C2, de 2,7 milliards de paramètres pré-entraîné sur des textes venant d'internet a ensuite été affiné avec les conversations de 40 408 parties réalisées sur WebDiplomacy.
Dans leur article, les chercheurs expliquent qu'ils ont créé ce qu'ils ont appelé un « Imitation dialogue model » [modèle d'imitation de dialogue]. C'est-à-dire que le modèle a été spécifiquement entraîné à prédire un message du joueur A au joueur B à l'instant t, en prenant en compte l'historique des dialogues avec tous les joueurs, l'état du jeu, l'historique des actions, l'évaluation du niveau des joueurs et les meta-données du jeu et des messages.
Architecture de Cicero. Crédits : Meta AI
Mais ensuite, il faut que Cicero puisse appliquer une tactique. Pour ça, elle utilise un module de raisonnement stratégique. Ce module utilise un algorithme de planification qui prédit les stratégies de tous les autres joueurs en fonction de l'état du jeu et des dialogues, en tenant compte à la fois de la force des différentes actions et de la probabilité qu'un humain choisisse cette action. Cicero peut ensuite prendre tout ça en compte pour choisir l'action de jeu qui sera la plus optimale pour elle.
Cicero a un troisième module qui filtre les messages absurdes, incompatibles avec la stratégie, ou stratégiquement pauvres.
Si vous voulez voir jouer Cicero, Markus Zijlstra, joueur qui a collaboré à sa création, a publié une vidéo d'une heure et demi montrant en détail une partie jouée par l'IA :
Des promesses et un manque de réflexion sur l'éthique
Dans le communiqué de presse publié par Meta à propos de Cicero, l'entreprise avance que la combinaison de ce genre de modules « pourrait, par exemple, faciliter la communication entre les humains et les bots conversationnels » et vend la possibilité qu'ils pourraient avoir une longue conversation dans le but de vous enseigner une nouvelle compétence. Le service communication de l'entreprise suggère aussi que cette technologie pourrait être utilisée pour améliorer les « non-player characters » des jeux vidéo.
Mais on peut imaginer qu'elle puisse être utilisée pour manipuler des humains en se faisant passer pour une vraie personne, une version très améliorée du scam, par exemple.
Dans l'annexe fourni par les chercheurs, il y a bien une section éthique, mais celle-ci ne se positionne pas vraiment sur des utilisations potentiellement néfastes de cette technologie. Le communiqué de presse de Meta précise que l'entreprise espère timidement qu'en rendant le code de Cicero libre sur GitHub, « les chercheurs en IA pourront continuer à s'inspirer de nos travaux de manière responsable ».
Cette remarque peut sembler un peu courte quand on sait que Meta AI a dépublié, la semaine dernière, son autre IA Galactica après de nombreuses réactions sur l'utilisation problématique qui pouvait en être fait.