Que sait-on de Gemini, le système d’IA de Google ?

Google aurait donné accès à une version anticipée de son système Gemini à quelques entreprises. Tour d’horizon de ce qui a filtré au sujet de ce « système multimodal ».

« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. » En ligne, les fans de tech ne tarissent pas d’éloge pour le système d’intelligence artificielle générative de Google, et ce avec forces références de pop culture plus ou moins heureuses.

Mais comment fonctionne le modèle multimodal Gemini ? Quelles sont ses spécificités ? Mérite-t-il tous les superlatifs avant même sa sortie ?

Le précédent ChatGPT tendrait à nous convaincre que la nuance serait plus adaptée : si le modèle génératif d'OpenAI a dépassé les 100 millions d’utilisateurs dès janvier 2023 (ce qui en a fait l’application à la croissance la plus rapide juste avant que Threads de Meta ne batte ce record), sa fréquentation a stagné dès le mois de mai puis commencé à chuter en juin. Par ailleurs, le modèle d’OpenAI n’est pas exempt de risque et a même donné quelques signes de régression.

Du côté de Gemini, peu d’informations ont filtré. Le 14 septembre, toutefois, the Information révélait que Google aurait donné un accès anticipé à une version de son logiciel à une poignée d’entreprises. Cela pourrait indiquer que la firme se rapproche d’un lancement du produit dans ses outils à destination des consommateurs et des entreprises (via ses offres cloud).

Réunion de Google Brain et DeepMind

Lorsque ChatGPT a été rendu public, fin novembre 2022, Google a initié un « code rouge ». L’agent conversationnel d’OpenAI représentait la première vraie menace contre le modèle du géant de la recherche en ligne. Pour faire face, l’actuel patron de l’entreprise Sundar Pinchai a notamment invité les fondateurs de l’entreprise, Larry Page et Sergey Brin, à revoir avec lui la stratégie à adopter en matière d’intelligence artificielle.

Quelques mois plus tard, en avril 2023, Google annonçait la fusion de ses deux équipes spécialisées dans l’IA, DeepMind – qui travaillait jusque-là sur Bard, concurrent direct de ChatGPT – et Brain. Cette réunion n’est pas à prendre à la légère : la première équipe a notamment créé AlphaGo, qui a battu Lee Sedol au go en 2016, et AlphaFold, qui prédit la structure des protéines. Brain, de son côté, a participé à la fabrication de Google Traduction et est derrière des produits comme TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner.

À l’époque, des employés de Google avaient clairement exprimé leurs doutes, en interne comme auprès de Bloomberg, sur la capacité du géant à entrer dans la danse de l’IA générative. D’après ZDNet, certains avaient carrément qualifié Bard de tentative « pathétique ».

Quoiqu'il en soit, les deux équipes sont désormais réunies sous le nom de Google DeepMind, le cofondateur de Google Brain, Jeffrey Dean, ayant été promu directeur scientifique. Demis Hassabis, lui, est directeur général de DeepMind et son but affiché est « d’arriver plus rapidement au futur » qui verrait la recherche et les produits d’intelligence artificielle « améliorer nettement la vie de milliers de personnes, transformer des industries, faire progresser la science et servir des communautés diverses ».

En termes moins grandiloquents, il s’agit d’unir les forces internes à l’entreprise pour concurrencer efficacement une entité comme OpenAI. « Stratégiquement, c’est logique » a déclaré le directeur du laboratoire d’intelligence artificielle de Stanford Christopher Mannigs au Wall Street Journal : les deux entités ont longtemps eu des activités qui se recoupaient. « D’un point de vue tactique, les évolutions organisationnelles et culturelles seront difficiles à gérer. »

Generalized Multimodal Intelligence Network

Quelques mois plus tard, lors de la Google I/O conference de mai 2023, le nom de « Gemini » a fait surface. Outre désigner un signe astrologique ou le deuxième programme de vol spatial lancé par les États-Unis (juste avant Apollo), Gemini signifie ici Generalized Multimodal Intelligence Network. Présenté comme un modèle de fondation de nouvelle génération, il devrait être « multimodal, très efficace en matière d’intégration d’outils et d’API » et pensé pour « permettre de futures innovations, comme la mémoire et la planification », selon le communiqué de la conférence.

  Google I/O : une édition 2023 sous la domination de l'IA, Android au second plan

Une fois prêt et « soumis à des tests de sécurité rigoureux », Gemini sera rendu disponible en différentes tailles et capacité, « comme PaLM 2 », indiquait Google en mai, sans donner de précisions supplémentaires.

Selon les sources de The Information, le système est constitué d’un jeu de grands modèles de langues capables de réaliser des tâches diverses (résumé de texte, génération de code ou d’un nouveau texte, chatbot, etc). Le système serait capable de gérer et produire de l’image et de la vidéo en plus du texte.

Auprès de Wired, Demis Hassabis a expliqué qu’y était mêlées des techniques utilisées lors de la construction d’AlphaGo, et qui permettraient de réaliser des actions de planification ou de résolution de problème. Google chercherait par ailleurs à y ajouter des fonctionnalités comme la possibilité d’analyser des graphiques ou de contrôler des logiciels par la voix. Avec le Time Magazine, Demis Hassabis en parle comme d’ « une série de modèles, plutôt qu’un modèle unique ».

Gemini profite du volume et de la diversité des données accumulées par Alphabet à travers ses filiales – en particulier YouTube, Google Books, Google Search et Google Scholars. Et si le modèle LaMDA a été entraîné par apprentissage supervisé, ce système-ci l’est par apprentissage par renforcement, comme l’ont été les différentes itérations de GPT.

D’après the Information, Gemini devrait bientôt être déployé dans des produits comme Google Docs. Quant aux développeurs, ils devraient payer pour avoir accès au modèle.

Guerre des producteurs d’IA

Les données à disposition de Google lui auront-elles permis un entraînement de qualité ? Certaines estimations avancent que le jeu d’entraînement du système est au moins deux fois plus gros que celui, déjà énorme, de GPT-4, mais il est difficile de trouver des éléments précis.

Dans quelle mesure les aléas que subissent les fournisseurs – NVIDIA a lui-même prévenu qu’il pourrait avoir du mal à faire face à la demande –, vont impacter le modèle ? Fin août, un article du blog SemiAnalysis, signé par les chercheurs Dylan Patel et Daniel Nishball, a créé d’intenses débats sur la question matérielle.

Titré « Google Gemini dévore le monde » (car, décidément, on a le sens de la mesure, dans le monde de l’IA), l’article explique que comparé à Google, tous les acteurs de l’intelligence artificielle sont « GPU-poors » (pauvres en GPU). Selon ses auteurs, même OpenAI ne serait en mesure de produire un système que cinq fois moins puissant que Google, puisque celui-ci peut s’appuyer sur des centaines de milliers de TPU (Tensor Processing Unit). L’article a évidemment déplu à Sam Altman.

Mais la question matérielle suffit-elle à faire de Gemini un produit plus puissant que ChatGPT ? (Outre cette question, la hype et le mécontentement sur les conditions de travail chez OpenAI sont suffisamment forts pour que des employés clés aient quitté l’entreprise pour rejoindre Google).

Quid des implications environnementales d’un système aussi vaste et complexe que ce que Gemini pourrait être ? Et de celles en matière de sécurité pour les utilisateurs (auprès de Wired, en juin, Demis Hassabis se déclarait en faveur d’une ouverture anticipée de Gemini à destination du milieu académique, pour aider à son évaluation) ?

Sur tous ces points, on manque d’informations précises tant que Google ne sort pas du bois.

Commentaires (12)

Tandhruil

Le 20/09/2023 à 07h21

« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. »

Non, The Leader
https://upload.wikimedia.org/wikipedia/en/e/e1/The_Leader_%28Samuel_Sterns%29.jpg

Edit : Pas doué en Markdown

nabnux Abonné

Le 20/09/2023 à 07h47

Une IA entraînée sur des milliards de commentaires YouTube, chouette !

Nozalys Abonné

Le 20/09/2023 à 07h50

Ça me désole d’avance pour les tarifs des GPU … on sort à peine de la difficile période des tarifs explosés par les cryptomineurs, on commence tout juste à retourner à des prix acceptables, et là on va replonger dans la pénurie à cause du machine learning…

tazvld Abonné

Le 20/09/2023 à 09h25

#3.1