Que sait-on de Gemini, le système d’IA de Google ?

Gemini cricket

Que sait-on de Gemini, le système d’IA de Google ?

Que sait-on de Gemini, le système d’IA de Google ?

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Google aurait donné accès à une version anticipée de son système Gemini à quelques entreprises. Tour d’horizon de ce qui a filtré au sujet de ce « système multimodal ».

« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. » En ligne, les fans de tech ne tarissent pas d’éloge pour le système d’intelligence artificielle générative de Google, et ce avec forces références de pop culture plus ou moins heureuses.

Mais comment fonctionne le modèle multimodal Gemini ? Quelles sont ses spécificités ? Mérite-t-il tous les superlatifs avant même sa sortie ? 

Le précédent ChatGPT tendrait à nous convaincre que la nuance serait plus adaptée : si le modèle génératif d'OpenAI a dépassé les 100 millions d’utilisateurs dès janvier 2023 (ce qui en a fait l’application à la croissance la plus rapide juste avant que Threads de Meta ne batte ce record), sa fréquentation a stagné dès le mois de mai puis commencé à chuter en juin. Par ailleurs, le modèle d’OpenAI n’est pas exempt de risque et a même donné quelques signes de régression. 

Du côté de Gemini, peu d’informations ont filtré. Le 14 septembre, toutefois, the Information révélait que Google aurait donné un accès anticipé à une version de son logiciel à une poignée d’entreprises. Cela pourrait indiquer que la firme se rapproche d’un lancement du produit dans ses outils à destination des consommateurs et des entreprises (via ses offres cloud).

Réunion de Google Brain et DeepMind

Lorsque ChatGPT a été rendu public, fin novembre 2022, Google a initié un « code rouge ». L’agent conversationnel d’OpenAI représentait la première vraie menace contre le modèle du géant de la recherche en ligne. Pour faire face, l’actuel patron de l’entreprise Sundar Pinchai a notamment invité les fondateurs de l’entreprise, Larry Page et Sergey Brin, à revoir avec lui la stratégie à adopter en matière d’intelligence artificielle.

Quelques mois plus tard, en avril 2023, Google annonçait la fusion de ses deux équipes spécialisées dans l’IA, DeepMind – qui travaillait jusque-là sur Bard, concurrent direct de ChatGPT – et Brain. Cette réunion n’est pas à prendre à la légère : la première équipe a notamment créé AlphaGo, qui a battu Lee Sedol au go en 2016, et AlphaFold, qui prédit la structure des protéines. Brain, de son côté, a participé à la fabrication de Google Traduction et est derrière des produits comme TensorFlow, les modèles Transformer (le T de GPT) et le modèle LaMDA, qui permet à Bard de fonctionner. 

À l’époque, des employés de Google avaient clairement exprimé leurs doutes, en interne comme auprès de Bloomberg, sur la capacité du géant à entrer dans la danse de l’IA générative. D’après ZDNet, certains avaient carrément qualifié Bard de tentative « pathétique ». 

Quoiqu'il en soit, les deux équipes sont désormais réunies sous le nom de Google DeepMind, le cofondateur de Google Brain, Jeffrey Dean, ayant été promu directeur scientifique. Demis Hassabis, lui, est directeur général de DeepMind et son but affiché est « d’arriver plus rapidement au futur » qui verrait la recherche et les produits d’intelligence artificielle « améliorer nettement la vie de milliers de personnes, transformer des industries, faire progresser la science et servir des communautés diverses ». 

En termes moins grandiloquents, il s’agit d’unir les forces internes à l’entreprise pour concurrencer efficacement une entité comme OpenAI. « Stratégiquement, c’est logique » a déclaré le directeur du laboratoire d’intelligence artificielle de Stanford Christopher Mannigs au Wall Street Journal : les deux entités ont longtemps eu des activités qui se recoupaient. « D’un point de vue tactique, les évolutions organisationnelles et culturelles seront difficiles à gérer. » 

Generalized Multimodal Intelligence Network

Quelques mois plus tard, lors de la Google I/O conference de mai 2023, le nom de « Gemini » a fait surface. Outre désigner un signe astrologique ou le deuxième programme de vol spatial lancé par les États-Unis (juste avant Apollo), Gemini signifie ici Generalized Multimodal Intelligence Network. Présenté comme un modèle de fondation de nouvelle génération, il devrait être « multimodal, très efficace en matière d’intégration d’outils et d’API » et pensé pour « permettre de futures innovations, comme la mémoire et la planification », selon le communiqué de la conférence.

Une fois prêt et « soumis à des tests de sécurité rigoureux », Gemini sera rendu disponible en différentes tailles et capacité, « comme PaLM 2 », indiquait Google en mai, sans donner de précisions supplémentaires. 

Selon les sources de The Information, le système est constitué d’un jeu de grands modèles de langues capables de réaliser des tâches diverses (résumé de texte, génération de code ou d’un nouveau texte, chatbot, etc). Le système serait capable de gérer et produire de l’image et de la vidéo en plus du texte.

Auprès de Wired, Demis Hassabis a expliqué qu’y était mêlées des techniques utilisées lors de la construction d’AlphaGo, et qui permettraient de réaliser des actions de planification ou de résolution de problème. Google chercherait par ailleurs à y ajouter des fonctionnalités comme la possibilité d’analyser des graphiques ou de contrôler des logiciels par la voix. Avec le Time Magazine, Demis Hassabis en parle comme d’ « une série de modèles, plutôt qu’un modèle unique ». 

Gemini profite du volume et de la diversité des données accumulées par Alphabet à travers ses filiales – en particulier YouTube, Google Books, Google Search et Google Scholars. Et si le modèle LaMDA a été entraîné par apprentissage supervisé, ce système-ci l’est par apprentissage par renforcement, comme l’ont été les différentes itérations de GPT.

D’après the Information, Gemini devrait bientôt être déployé dans des produits comme Google Docs. Quant aux développeurs, ils devraient payer pour avoir accès au modèle. 

Guerre des producteurs d’IA

Les données à disposition de Google lui auront-elles permis un entraînement de qualité ? Certaines estimations avancent que le jeu d’entraînement du système est au moins deux fois plus gros que celui, déjà énorme, de GPT-4, mais il est difficile de trouver des éléments précis.

Dans quelle mesure les aléas que subissent les fournisseurs – NVIDIA a lui-même prévenu qu’il pourrait avoir du mal à faire face à la demande –, vont impacter le modèle ? Fin août, un article du blog SemiAnalysis, signé par les chercheurs Dylan Patel et Daniel Nishball, a créé d’intenses débats sur la question matérielle.

Titré « Google Gemini dévore le monde » (car, décidément, on a le sens de la mesure, dans le monde de l’IA), l’article explique que comparé à Google, tous les acteurs de l’intelligence artificielle sont « GPU-poors » (pauvres en GPU). Selon ses auteurs, même OpenAI ne serait en mesure de produire un système que cinq fois moins puissant que Google, puisque celui-ci peut s’appuyer sur des centaines de milliers de TPU (Tensor Processing Unit). L’article a évidemment déplu à Sam Altman.

Mais la question matérielle suffit-elle à faire de Gemini un produit plus puissant que ChatGPT ? (Outre cette question, la hype et le mécontentement sur les conditions de travail chez OpenAI sont suffisamment forts pour que des employés clés aient quitté l’entreprise pour rejoindre Google).

Quid des implications environnementales d’un système aussi vaste et complexe que ce que Gemini pourrait être ? Et de celles en matière de sécurité pour les utilisateurs (auprès de Wired, en juin, Demis Hassabis se déclarait en faveur d’une ouverture anticipée de Gemini à destination du milieu académique, pour aider à son évaluation) ?

Sur tous ces points, on manque d’informations précises tant que Google ne sort pas du bois.

Commentaires (12)



« Imaginez si le Hulk des modèles de langues et l’IA de Tony Stark Jarvis avaient un enfant… Boom ! Voici Gemini. »




Non, The Leader
https://upload.wikimedia.org/wikipedia/en/e/e1/The_Leader_%28Samuel_Sterns%29.jpg



Edit : Pas doué en Markdown :transpi:


Une IA entraînée sur des milliards de commentaires YouTube, chouette !


Ça me désole d’avance pour les tarifs des GPU … on sort à peine de la difficile période des tarifs explosés par les cryptomineurs, on commence tout juste à retourner à des prix acceptables, et là on va replonger dans la pénurie à cause du machine learning…


Achète AMD, NVidia a un quasi-monopôle sur les CG dédié à l’IA.


« Que sait-on de Gemini, le système d’IA de Google ? »



Ben, déjà, que ce n’est pas le vrai Projet Gemini, à savoir : le protocole Internet qui existe depuis le 20 juin 2019 et qui est carrément l’antithèse totale de ce que les GAFAM/MAGMA/Big Tech/géants du numérique veulent faire d’Internet (et du Web) pour leurs seuls intérêts exclusifs et au détriment des humains.



Si Solderpunk avait songé à déposer le nom de Gemini, je pense qu’il serait dans tous les cas en droit de signaler que celui-ci est déjà pris. J’espère donc que celui du projet de Google n’est que provisoire.


Merci pour ce très bon article!



nabnux a dit:


Une IA entraînée sur des milliards de commentaires YouTube, chouette !




une IA entrainée sur la transcription de l’audio des milliards de vidéo de science, technologie, philosophie, débats, actualités, …



exemple: https://www.youtube.com/watch?v=tmNXKqeUtJM




Notre Soleil, et la Terre, et toutes les planètes, et lunes, et planètes naines et astéroïdes et comètes ; le Système solaire, pour faire court ; s’est formé il y a environ 4,6 milliards d’années, à partir d’un nuage nébuleux de gaz et de poussière, qui ont fusionnés grâce à l’irrésistible force attractive de la gravité.
Cependant, cette nébuleuse a plus ou moins commencé à l’état de grosse masse informe, alors comment se fait-il que le système solaire ait aujourd’hui ses planètes et lunes orbitant toutes sur un même disque plan ? Je m’explique : nous avons tous déjà vu le modèle planétaire de l’atome - qui d’ailleurs est complétement faux appliqué à l’atome - mais il suggère tout de même par son nom que les planètes tournerent autour du Soleil sur différents plans.
Alors est-ce que notre système solaire est …



Gemini est Genesys, Genesys est Gemini :D


Des trucs potentiellement intéressant qu ne mènent à rien, Google en annoncent depuis longtemps. On savait déjà qu’ils sont experts pour bruler tout le cash gagné avec la pub.



D’ailleurs l’article en question fait référence au fait que les chercheurs de Google se ventaient déjà de faire mieux que OpenAI… à l’époque de GPT-2.



Sauf que bien sûr contrairement à OpenAI ils n’ont rien sorti. Trop risqué.



C’est plus une démonstration de la paralysie interne de Google que de leurs capacités.



Quid des implications environnementales d’un système aussi vaste et complexe que ce que Gemini pourrait être ?




Boaf vous savez, comme d’habitude ce sera la faute de “la demande”, les “consommateurs”, ils sont prêts à donner tellement de ce chiffre virtuel qu’on appelle argent, qu’on ne peut que répondre à ce bel enthousiasme en détruisant un peu plus la vie.


Hâte de lire les solutions et le planning des AI pour contrer le réchauffement climatique, rétablir un équilibre entre l’establisment et le populisme, limite les grandes migrations et la cerise garantir à boire et manger à 9 milliards d’être humains.


Dalek


Fermer