Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Artéfacts

Publié dans

19/07/2023 6 minutes

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Les modèles d'intelligence artificielle permettent de générer du texte, des images et des vidéos avec une incroyable facilité. Mais leur entrainement répétitif sur des données qu'ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.

Depuis l'arrivée de ChatGPT, l'utilisation de modèles de langage et d'intelligence artificielle générative d'images et de vidéos a explosé et de plus en plus de données issues de ces outils se retrouvent sur Internet.

L'IA générative permet de créer des sites entiers sans qu'un humain ait à écrire un article ou à créer une image. Certains « crowd workers » les utilisent déjà pour fournir des réponses qui seront insérées dans de nouvelles bases d'entrainement. Une base de données contenant des images d'entrainement comme LAION-5B contient déjà des images générées par ce genre d'IA. Le site Have I been trained permet d'ailleurs de savoir si une image a déjà été utilisée pour entrainer des IA.

Mais nous avons encore du mal à comprendre quels impacts cette masse de contenus générés de façon automatique peut avoir sur notre utilisation d'internet ainsi que sur l'entrainement de ces IA elles-mêmes.

Une étude, mise en ligne [PDF] sur le site arXiv par des chercheurs des universités de Rice et de Stanford, montre qu'au bout de cinq itérations d'entrainement sur des données fabriquées par une de ces IA, celle-ci amplifie leurs biais et artéfacts de manière visible.

Exemple sur un modèle de génération d'images

Pour nous rendre saillant le problème, Sina Alemohammad et ses collègues ont fait un test sur StyleGAN-2, un modèle créé par des chercheurs de NVIDIA. Ils ont d'abord utilisé ce modèle pour créer une base de données d'images. Puis, ils l'ont ré-entrainé avec cette base de données ne contenant que des images « synthétiques ». Et ainsi de suite, créant ce qu'ils appellent « une boucle totalement synthétique ».

Petit à petit, on voit apparaître les artéfacts et biais ressortir de ces images qui ne sont clairement plus des images « comme les autres ». Ci-dessous, dans la succession d'images provenant des différentes générations du test, des hachures non visibles sur la première génération d'images commencent doucement à être perceptibles en troisième génération et devenir franchement problématiques à partir de la cinquième.

StyleGAN-2 artéfacts photos hachures — Crédits : Sina Alemohammad et al.

Autophagie et éloignement des données réelles

Cet exemple illustre ce qu'ils ont constaté aussi sur d'autres modèles et qu'ils théorisent dans leur article. Ce processus répété crée ce qu'ils appellent une boucle « autophage » (qui se consomme elle-même). « Sans suffisamment de données fraîches réelles à chaque génération d'une boucle autophage, les futurs modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement », expliquent-ils.

En comparant les données créées dans une « boucle totalement synthétique » avec de réelles données, ils observent, comme on peut le voir ci-dessous, que les données « synthétiques » s'éloignent petit à petit des données « réelles » et forment petit à petit un groupe de données bien distinct par rapport aux autres alors que ce n'était pas le cas dans les premières générations.

boucle autophage IA 1 — Crédits : Sina Alemohammad et al.

Si la « boucle totalement synthétique » est appliquée sur des données ayant des biais d'échantillonnage, les données ne fusionnent pas, mais on peut observer ci-dessous qu'elles dérivent en se regroupant autour de certains points (de haute qualité, précisent les chercheurs).

boucle autophage IA 2 — Crédits : Sina Alemohammad et al.

Les chercheurs admettent dans leur article qu'en pratique, il y a peu de chance que les créateurs de ce genre de base de données ne le fassent qu'avec des données « synthétiques ».

Ils ont donc observé ce qu'il se passait dans le cas où les données d'apprentissage sont constituées d'un ensemble de données réelles fixe, progressivement complété par des données synthétiques, ce qu'ils ont appelé une « boucle d'augmentation synthétique ». Mais, selon leur expérience, « un ensemble de données réelles fixe ne fait que ralentir la dégradation des modèles génératifs ».

Ce n'est qu'en ajoutant seulement des données réelles « fraiches » qu'ils arrivent à ce que les modèles ne tombent pas dans un « Model Autophagy Disorder » (MAD), en français, trouble de l'autophagie de modèle.

Des modèles « fous » ou juste « bugués » ?

« Model Autophagy Disorder », le terme inventé par Sina Alemohammad et ses collègues, rappelle le vocabulaire médical. Et son acronyme, MAD, résonne clairement comme la volonté de poser un diagnostic psychiatrique sur ces modèles. D'autant que l'on peut lire aussi dans leur article des phrases évoquant, avec une pointe d'ironie, la folie, par exemple, « Training exclusively on synthetic data leads to MADness » (littéralement en français, « Entraîner exclusivement sur des données synthétiques conduit à la folie »).

Si leur article montre de façon convaincante une vraie question sur l'utilisation des données « synthétiques » et nous donne des clés pour comprendre leurs bugs, cette utilisation du vocabulaire médical paraît plus problématique pour ne pas tomber dans les travers de l'anthropomorphisme pointé parfois par la linguiste Emily Bender.

Il n'en reste pas moins que les auteurs de cette étude sont clairs : « selon un scénario catastrophe, si le MAD n'est pas contrôlé pendant plusieurs générations, il pourrait empoisonner la qualité et la diversité des données de l'ensemble de l'internet. En l'absence d'un tel scénario, il semble inévitable que l'autophagie de l'IA entraîne, même à court terme, des conséquences imprévues jusqu'à présent ». Ils demandent aux praticiens qui « utilisent délibérément des données synthétiques pour l'entrainement parce que c'est bon marché et facile » de prendre leurs conclusions comme un avertissement et d'envisager de tempérer leurs habitudes.

Les chercheurs proposent aussi, « étant donné que les modèles génératifs n'ajoutent pas nécessairement des métadonnées aux images générées », que les utilisateurs ajoutent des filigranes à leurs images ainsi générées, pour qu'elles soient rejetées lors de la création de base de données d'entrainement. Cette proposition ne vaut, en revanche, pas pour les textes.

DMA : la Commission européenne désigne iPadOS comme contrôleur d’accès

16:21 2

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

14:41 0

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

14:09 11

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

12:07 7

Chiffrement : WhatsApp menace de quitter l’Inde

11:04 11

Microsoft ouvre les sources de… MS-DOS 4.0

10:02 18

La Paris Games Week reviendra du 23 au 27 octobre 2024

08:04 2

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

06:59 14

Commentaires (37)

127.0.0.1

Le 19/07/2023 à 17h 09

Mais leur entrainement répétitif sur des données qu’ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.

Non, sans blague.
Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire

Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.

Impatient de lire une étude comparative IA génératives vs Gartic Phone.

Uther Abonné

Le 20/07/2023 à 02h 45

#1.1

Même si l’existance du phénomène est attendue (ça fait d’ailleurs un moment que pas mal de spécialistes alertent là dessus), ça ne veut pas dire qu’il est inintéressant de l’étudier dans le détail, ne serais-ce que pour avoir une meilleure idée du niveau des risques que ça pose.

Nimnael

Le 20/07/2023 à 06h 40

#1.2

L’intérêt d’une étude scientifique (une fois que son résultat aura été validé par d’autres études similaires aboutissant aux mêmes conclusions) c’est que, même si tu t’attendais intuitivement à ce résultat, tu peux maintenant t’appuyer dessus pour enrichir ta réflexion par autre chose qu’un argument de café du commerce ou une parole de ministre.

xlp Abonné

Le 20/07/2023 à 07h 07

#1.3

Ça me semble évident. Le truc de base produit des artefacts, qu’il n’est bien sûr pas capable de corriger, et si je comprends bien comment ça marche, tout ce qu’on peut faire c’est entraîner plus plus plus pour les faire disparaître autant que possible.

Est-ce que quelqu’un peut m’expliquer en quoi c’est pas évident, au point qu’on vérifie la chose ? (Après étudier à quel point ça dérive vite, pourquoi pas… Mais pourquoi y’a-a-t-il besoin de dire que oui, ça dégénère).

Je crois que je viens de trouver le mot adapté : les IA génératives dégénèrent

consommateurnumérique Abonné

Le 20/07/2023 à 11h 44

#1.4

xlp

Pourquoi il y a besoin de démontrer ce qui se passe? Peut-être parce que, entre ceux qui vont relativiser les échecs de l’IA avec des comparaisons photographiques et ceux qui vont exagérer les réussites des algorithmes profonds en cachant des défauts par des subterfuges illusionistes, il y a ceux et celles qui pratiquent la science avec méthode et discipline.

SebGF Abonné

Le 19/07/2023 à 17h 57

Bah au final ça démontre que l’IA est proche de l’humain.

Enfermée dans sa bulle, elle devient conne.

Le 19/07/2023 à 18h 09

L’humain réduit à nourrir indéfiniment l’algorithme.

Petite digression : ça me fait penser à mon nouveau syndic (l’un des 4 ou 5 groupes immobiliers nationaux ou européens) qui se prétend digitalisé et qui m’a fourni un appel de fonds avec des dizaines de lignes au même libellé identique, suite à une migration informatique. Champion l’algo, mais j’imagine que la vérification humaine de toutes ces lignes (jamais eu un appel de fond de 3 pages auparavant) n’est pas nécessaire puisque la machine ne se trompe soit-disant jamais.

hurd Abonné

Le 19/07/2023 à 19h 14

(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire

Après c’est pas plus mal que ça soit verifié et étudié, fin pour moi c’est pas le sujet le moins intéressant.

Bourrique

Le 19/07/2023 à 20h 23

La modélisation imite très bien la réalité.
Jusqu’à la dégénérescence due à la consanguinité.

pamputt Abonné

Le 20/07/2023 à 06h 33

Les résultats de cette étude me semblent être une très bonne nouvelle. Ça devrait poussé les générateurs d’images à watermarker les images générées. Comme ça elles pourront ainsi facilement être retirés des bases d’images utilisées pour l’apprentissage.

Et en prime, ça permettra aussi d’identifier facilement les fichiers générés automatiquement des autres pour M. Tout-le-monde.

misocard

Le 20/07/2023 à 08h 12

#6.1

Ca veut aussi dire qu’on peut empoisonner des bases de données “publiques” (photos de profil, dessins, …)

Les sites qui se plaignent du pillage de leurs données via les API pourraient également générer plein de faux trucs qui ne seraient pas filtrés par ceux qui ne paient pas.

Le 20/07/2023 à 08h 23

#6.2

La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée

fofo9012 Abonné

Le 20/07/2023 à 06h 57

Ça marche comme chez les humains : Quand toute la famille se marie entre frères et sœur ça ne se voit pas forcément à la première génération, mais au bout de quelques générations y’a quelques problèmes qui apparaissent :)

C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?

Le 20/07/2023 à 07h 13

#7.1

Quand l’IA te dira que ChatGPT est le fer de lance métallique de OpenAI ?
Ça dépend de la partie “hardcodée” du truc. S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés. Des tournures inusitées ? Des fautes de grammaires ?

Voir les IA de négociation de Facebook et leur propre langage ?

carbier Abonné

Le 20/07/2023 à 07h 17

(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire

Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.

Impatient de lire une étude comparative IA génératives vs Gartic Phone.

Heureusement que le monde de la recherche ne se base pas sur ce genre de commentaires.

Avoir l’intuition d’un résultat attendu ne vaut pas démonstration.
De même l’investigation des raisons pour lequel ledit résultat est obtenu peut être source d’informations permettant de modifier les process d’apprentissage par exemple.

Exemple: l’histoire de la génétique montre comment on est passé d’une intuition de l’hérédité (les enfants ressemblent souvent aux parents) à une démonstration qui a permis de poser les bases d’une nouvelle science.

Le 20/07/2023 à 07h 56

fofo9012 a dit:

C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?

Pour le texte, je dirais que le résultat sera un appauvrissement de son modèle de langage et de la perte d’information. Un peu comme les débats de 200 caractères sur Twitter, c’est pauvre car impossible de développer l’idée.

Comme GPT est entraîné en apprenant à lire du texte, de facto il retient des concordances de mots dans un contexte (c’est ça qui fait qu’il est capable de répondre à une question). Donc au fur et à mesure, je pense qu’il va y avoir des pertes car le contexte s’appauvrira et il finira par être de plus en plus à côté de la plaque.

Par contre un traitement en mode AutoGPT ou GPT s’auto challenge au travers de plusieurs questions/réponses pour produire un résultat c’est une approche très intéressante pour justement éviter cette “consanguinité”.

vizir67 Abonné

Le 20/07/2023 à 08h 42

#10

(reply:2143599:consommateurnumérique)
l’Humain se reposant de+en+ sur ‘Chat GTP’, ça ne pas alle
r en s’arrangeant c’tte histoire !!!

“moins j’en fais..et mieux je me porte”

loser Abonné

Le 20/07/2023 à 10h 12

#11

J’aimerais bien voir le résultat au bout de 50, 100, 1000 ou 10000 itérations…

john san Abonné

Le 20/07/2023 à 11h 40

#12

Bourrique a dit:

La modélisation imite très bien la réalité. Jusqu’à la dégénérescence due à la consanguinité.

exactement ce que je pensais :) problème de consanguinité

Thorgalix_21 Abonné

Le 20/07/2023 à 13h 35

#13

xlp a dit:

[…] S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés.

Je rappelle qu’à la base, TOUS les mots sont inventés.

cyp Abonné

Le 20/07/2023 à 14h 21

#14

SebGF a dit:

La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée

Et les développeurs qui publient sur Github leur code généré avec Copilot

Amabaka Abonné

Le 23/07/2023 à 06h 03

#14.1

Je pense cet “empoisonnement” est un problème qui va se poser de plus en plus dans le futur.
Ca concerne tous les secteurs où l’IA sera utilisé.

Génération d image : de plus en plus d images générés sur des articles de presse, réseaux sociaux, banques d images

Génération de texte : des articles et autres contenus générés par IA

Code : comme tu l’as dit, code généré sur github

Et on est encore au début, si le taux d’adoption des IA augmente avec le temps et l’amélioration des performances et des outils, le problème va s aggraver. Ça sera plus difficile d avoir un jeu de données récent et sain pour entraîner une IA

Le 20/07/2023 à 17h 37

#15

Si le nombre d’artefacts (ou biais, ou whatever) diminuait à chaque génération, les IA actuelles seraient en boucle permanente d’apprentissage. Et depuis le temps on aurait des IA. Et les entreprises qui améliorent leur IA ne se fatigueraient pas a collecter des données IRL si elles pouvaient simplement utiliser celles que leur IA fabrique déjà.

L’idée qu’une IA pourrait permettre de construire une meilleure version d’elle même (même de 1%) est pour l’instant de la science-fiction. Souhaitons que ca le reste…

Le 20/07/2023 à 18h 15

#16

(reply:2143691:consommateurnumérique)

Je ne critique pas du tout la volonté d’étudier la chose.

Seulement, de ce que je sais de l’IA, à part atteindre le “modèle parfait” qui n’a plus besoin d’amélioration (ce qui veut dire aussi qu’on ne créé plus rien, parce que “génère moi quelqu’un avec un smartphone dans la main” entraîné avec des photos d’il y a 30 ans ça serait rigolo…), les modèles devront continuer à être entraînés.

Si on commence à les entraîner massivement avec leur propre contenue biaisé… S’ils étaient “au courant” du bias, ils ne génèreraient pas… Donc ils vont s’entraîner à créer plus de biais, donc il me semble logique que le problème s’accroisse.

Question : y’a-t-il une faille dans mon raisonnement ?

Le 21/07/2023 à 06h 29

#16.1

Ton raisonnement me paraît juste. Mais il n’est pas suffisant. Je voulais juste dire que sans étude scientifique du phénomène, le marketing des sociétés travaillant avec l’IA peut aussi émettre un raisonnement qui paraît juste. Se tromper est tellement fréquent. Un raisonnement peut aussi être trompeur si on étudie pas sérieusement le sujet.

Le 21/07/2023 à 06h 47

#17

cyp a dit:

Et les développeurs qui publient sur Github leur code généré avec Copilot

ah oui bien vu !

Le 21/07/2023 à 08h 41

#18

(reply:2143793:consommateurnumérique)

En gros (et je ne réagissais pas à cet article précisément), ce qui m’a choqué c’est l’apparente nouvelle renversante : entraîner les IA sur les résultats des IA cause des problèmes.

Quelqu’un aurait sorti un article disant qu’entraîner en boucle les IA améliore leur résultats, ça ça m’aurait choqué.

Je suis perturbé par le fait qu’il semble que pour certains c’est un résultat inattendu.
(Quant à ce que disent les sociétés elles-mêmes, je prends avec des pincettes tout ce qui a un conflit d’intérêt dont je suis au courant)

ouaffouaff

Le 21/07/2023 à 12h 22

#19

comme certains disent : “garbage in, garbage out”. Cette mousse créée pa rles département marketing des entreprises de l’inforamtique n’est fait que pour tirer à la hausse la valorisation de leurs actions. Avant il y avait le metaverse mais ça a été un flop. Le vocabulaire “IA” ou “AI” est plus accrocheur et fait un tabac, même cela reste encore bien nébuleux tout ça, alors fonçons !

Le 21/07/2023 à 13h 33

#19.1

Pour le coup l’IA génératrice, c’est loin d’être aussi nébuleux que l’était le metavers : c’est concret, ça existe, et ça se consomme. Les offres de service autour se développent ainsi que les produits qui se basent dessus (chatbot de Carrefour basé sur GPT par exemple).

Eldeberen Abonné

Le 24/07/2023 à 09h 17

#20

Sous-titre alternatif : “Garbage in, garbage out”

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Artéfacts

Exemple sur un modèle de génération d'images

Autophagie et éloignement des données réelles

Des modèles « fous » ou juste « bugués » ?

Tiens, en parlant de ça :

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

noyb vs OpenAI, S01E01

Android TV laisse installer Chrome et accéder aux données du compte Google

Une mise à jour ? Quelle mise à jour ?

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Sommaire de l'article

Introduction

Exemple sur un modèle de génération d'images

Autophagie et éloignement des données réelles

Des modèles « fous » ou juste « bugués » ?

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

Android TV laisse installer Chrome et accéder aux données du compte Google

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

DMA : la Commission européenne désigne iPadOS comme contrôleur d’accès

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

Chiffrement : WhatsApp menace de quitter l’Inde

Microsoft ouvre les sources de… MS-DOS 4.0

La Paris Games Week reviendra du 23 au 27 octobre 2024

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

Commentaires (37)