BLOOM : l’ambitieux modèle de langage de l’open science

Flower power

Publié dans

18/10/2022 5 minutes

BLOOM : l'ambitieux modèle de langage de l'open science

Si l'annonce de la sortie cet été de BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) n'a pas fait un grand « Blam ! » médiatique, ce modèle de langage pourrait changer des choses dans le milieu de l'intelligence artificielle destinée aux textes.

Depuis la publication du modèle de langage GPT-3 en 2020, l'enjeu autour de ces outils d'intelligence artificielle permettant de créer des textes très bien structurés dans de nombreuses langues est devenu très important. Pour ne pas laisser la main mise aux seuls GAFAM, la startup Hugging Face a réussi à rallier un millier de chercheurs et chercheuses pour proposer BLOOM, une solution « open science » grâce aux moyens publics français du ministère de l'enseignement supérieur et de la recherche et du CNRS.

« Don't be evil », bis repetita

En 2020, lors de sa présentation, GPT-3 fait figure de révolution dans le milieu du traitement automatique des langues. Son réseau de neurones de 175 milliards de paramètres a généré un modèle d'intelligence artificielle permettant d'obtenir des textes dont il est très difficile de déterminer qu'ils n'ont pas été écrit par un humain.

GPT-3 a été développé au sein d'OpenAI, une organisation d'abord fondée sous statut « non-profit » par Elon Musk, le chercheur en informatique Ilya Sutskever et des investisseurs comme Sam Altman. Mais rapidement, le projet a changé de statut.

OpenAI, une alliance ouverte pour la recherche sur l'intelligence artificielle

C'est même un an avant l'annonce concernant GPT-3 qu'OpenAI a décidé de passer d'une structure « non-profit » à ce qu'ils ont appelé « capped-profit company », qu'on pourrait traduire par « entreprise à bénéfices plafonnés », pour attirer les investisseurs. Et ça a marché puisqu'en 2019, Microsoft a investi 1 milliard de dollars dans le projet et mis à sa disposition un des plus gros supercalculateurs de l'époque pour élaborer le modèle.

Mais après l'annonce en grande pompe de la création du modèle, OpenAI a vendu une licence exclusive de son utilisation à Microsoft, laissant aux autres utilisateurs potentiels un simple accès via une API, forcément limitée. Ce, sans diffuser le modèle, position contradictoire à ce qui est annoncé dans le nom lui-même d'OpenAI.

Le milieu du traitement automatique des langues est pourtant impressionné par les performances du modèle GPT-3. En 2021, Dall·e 2 bluffe tout le monde en utilisant une version de GPT-3 avec 3,5 milliards de paramètres pour génèrer des images à partir d’un texte. Forte de ce succès, OpenAI a aussi collaboré avec Github pour développer Copilot, son outil d'aide à l'écriture de code basé sur Codex, une version adaptée de GPT-3.

DALL·E 2 génère des images à partir d’un texte : un résultat bluffant, des défis juridiques

Des critiques peu appréciées

Mais les modèles de langage et GPT-3 ont aussi essuyé des critiques. Les chercheuses Emily M. Bender, Timnit Gebru, Angelina McMillan-Majoret Margaret Mitchell ont notamment publié un article scientifique posant la question des dangers de ce genre d'algorithmes.

Les trois principaux risques pointés étaient l'énergie énorme que peut consommer la création de ce genre de modèles, leur coût important ne laissant la place qu'à de très gros investisseurs, et enfin les biais, notamment racistes et sexistes, qu'ils pouvaient embarquer suivant les données avec lesquelles ils étaient entraÎnés. Cet article a d'ailleurs coûté à Timnit Gebru et Margaret Mitchell, selon elles (ici et là), leur place au sein du laboratoire d'éthique de l'intelligence artificielle de Google.

BLOOM, de la véritable open science ?

C'est dans ce contexte que la startup Hugging Face a lancé au printemps 2021 le projet BigScience proposant aux spécialistes du domaine de créer un projet similaire à GPT-3, mais en partant de principes de collaborations scientifiques beaucoup plus clairs.

Le succès de l'appel est assez évident puisqu'un millier de chercheurs y ont répondu. Des institutions comme le CNRS et Inria ont apporté leurs compétences et leur matériel, et des entreprises comme SalesForce ont aussi collaboré. Hugging Face a également recruté opportunément l'une des autrices de l'article critique, Margaret Mitchell, au cours de cette même année.

Résultat : un an et trois mois et demi de calculs sur le supercalculateur Jean Zay du CNRS, le projet annonçait la création du modèle BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) en juillet dernier. Et contrairement à celui d'OpenAI, le modèle BLOOM est disponible en ligne.

L'article scientifique est aussi disponible avec les commentaires des chercheurs qui l'ont relu, saluant notamment la démarche éthique du projet. BLOOM est distribué avec une licence qui se veut « responsable » prohibant explicitement les usages malveillants du modèle.

Langages utilisés pour l'entrainement de BLOOM

Techniquement, le calcul de BLOOM a nécessité 384 GPU A100 avec 80 Go de mémoire et environ 1 million d'heures de calculs. Le projet s'est appuyé notamment sur la bibliothèque d'optimisation d'entrainement du deeplearning Deepspeed (ironiquement dévelopée par une équipe de Microsoft) et le framework Megatron-LM de NVIDIA et a été entrainé sur 1,5 To de données venant de 46 langages (contrairement aux 59 qu'annonce leur visuel), la plus grande partie venant de langues indo-européennes, mais aussi chino-tibétaines, afro-asiatiques et 10,8 % de code.

Un nouveau projet nommé « BigCode » a d'ailleurs été lancé pour travailler autour des langages informatiques et proposer une alternative au Codex d'OpenAI.

Une démo de BLOOM est accessible sur le site de Hugging Face. Reste à savoir maintenant si la structure créée autour de BLOOM et promouvant l' « open science » défendra réellement cet aspect essentiel du projet. La publication du modèle, du dispositif et la démarche en elle-même semblent apporter une certaine garantie.

Aux États-Unis, Threads sur le point de dépasser X (Twitter)

14:00 0

Snapdragon X : Qualcomm tricherait dans ses benchmarks

11:30 1

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

09:10 3

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

08:04 1

Ubuntu 24.04 LTS disponible en version finale

08:00 1

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

07:45 9

In any way that violates any applicable national, federal, state, local or international law or regulation; For the purpose of exploiting, harming or attempting to exploit or harm minors in any way; To generate or disseminate verifiably false information with the purpose of harming others; To generate or disseminate personal identifiable information that can be used to harm an individual; To generate or disseminate information or content, in any context (e.g. posts, articles, tweets, chatbots or other kinds of automated bots) without expressly and intelligibly disclaiming that the text is machine generated; To defame, disparage or otherwise harass others; To impersonate or attempt to impersonate others; For fully automated decision making that adversely impacts an individual’s legal rights or otherwise creates or modifies a binding, enforceable obligation; For any use intended to or which has the effect of discriminating against or harming individuals or groups based on online or offline social behavior or known or predicted personal or personality characteristics To exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm; For any use intended to or which has the effect of discriminating against individuals or groups based on legally protected characteristics or categories; To provide medical advice and medical results interpretation; To generate or disseminate information for the purpose to be used for administration of justice, law enforcement, immigration or asylum processes, such as predicting an individual will commit fraud/crime commitment (e.g. by text profiling, drawing causal relationships between assertions made in documents, indiscriminate and arbitrarily-targeted use).

Commentaires (6)

Stephane_A

Le 18/10/2022 à 17h 58

Pour l’Open AI , GPT-3 certains Commencent a sentir les effets surtout dans les études supérieures ou des étudiants s’en servent pour écrire leurs devoirs

wagaf Abonné

Le 18/10/2022 à 19h 10

Super projet

Dans les modèles ouverts il faut aussi mentionner :

Whisper de OpenAI, qui change la donne en terme de reconnaissance vocale (si votre entreprise paye pour un service de reconnaissance vocale envisagez d’utiliser Whisper à la place).

Stable Diffusion pour la génération d’images, le fait d’utiliser le modèle localement permet de désactiver la censure parfois pénible imposée par les services en ligne.

SebGF Abonné

Le 18/10/2022 à 20h 27

#2.1

Effectivement Whisper est super impressionnant. Je l’ai utilisé une paire de fois à titre perso pour transcrire l’audio de contenus anglophones sur lesquels j’avais des difficultés à comprendre certains passages.

Et il marche très bien en français aussi.

guerby Abonné

Le 19/10/2022 à 11h 06

Au passage quelqu’un connait un modele/application libre qui donne des resultats de bonne qualité pour du text to speech ? Ou eventuellement qui s’entraine sur la voix d’une personne et l’imite après pour le text to speech ?

Glandos Abonné

Le 19/10/2022 à 11h 13

Les droits restreints sont disponibles sur https://hf.space/static/bigscience/license/index.html

Ils sont assez nombreux :
You agree not to use the Model or Derivatives of the Model:

Je suis pas sûr que ce soit facile de tous les respecter, même en son âme et conscience.

En tout cas, un bon Richard Stallman qui passerait par là dirait que c’est pas libre

ogodei Abonné

Le 21/10/2022 à 09h 20

Merci pour l’article, super intéressant !

BLOOM : l’ambitieux modèle de langage de l’open science

Flower power

« Don't be evil », bis repetita

Des critiques peu appréciées

BLOOM, de la véritable open science ?

Tiens, en parlant de ça :

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Qui donnera du grain avarié à moudre aux nouvelles IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Artificial Ideology

Sommaire de l'article

Introduction

« Don't be evil », bis repetita

Des critiques peu appréciées

BLOOM, de la véritable open science ?

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Aux États-Unis, Threads sur le point de dépasser X (Twitter)

Snapdragon X : Qualcomm tricherait dans ses benchmarks

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

Ubuntu 24.04 LTS disponible en version finale

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

Commentaires (6)