Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Artéfacts

Avatar de l'auteur
Martin Clavey

Publié dans

Société numérique

19/07/2023 6 minutes
37

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Les modèles d'intelligence artificielle permettent de générer du texte, des images et des vidéos avec une incroyable facilité. Mais leur entrainement répétitif sur des données qu'ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.

Depuis l'arrivée de ChatGPT, l'utilisation de modèles de langage et d'intelligence artificielle générative d'images et de vidéos a explosé et de plus en plus de données issues de ces outils se retrouvent sur Internet.

L'IA générative permet de créer des sites entiers sans qu'un humain ait à écrire un article ou à créer une image. Certains « crowd workers » les utilisent déjà pour fournir des réponses qui seront insérées dans de nouvelles bases d'entrainement. Une base de données contenant des images d'entrainement comme LAION-5B contient déjà des images générées par ce genre d'IA. Le site Have I been trained permet d'ailleurs de savoir si une image a déjà été utilisée pour entrainer des IA.

Mais nous avons encore du mal à comprendre quels impacts cette masse de contenus générés de façon automatique peut avoir sur notre utilisation d'internet ainsi que sur l'entrainement de ces IA elles-mêmes.

Une étude, mise en ligne [PDF] sur le site arXiv par des chercheurs des universités de Rice et de Stanford, montre qu'au bout de cinq itérations d'entrainement sur des données fabriquées par une de ces IA, celle-ci amplifie leurs biais et artéfacts de manière visible.

Exemple sur un modèle de génération d'images

Pour nous rendre saillant le problème, Sina Alemohammad et ses collègues ont fait un test sur StyleGAN-2, un modèle créé par des chercheurs de NVIDIA. Ils ont d'abord utilisé ce modèle pour créer une base de données d'images. Puis, ils l'ont ré-entrainé avec cette base de données ne contenant que des images « synthétiques ». Et ainsi de suite, créant ce qu'ils appellent « une boucle totalement synthétique ».

Petit à petit, on voit apparaître les artéfacts et biais ressortir de ces images qui ne sont clairement plus des images « comme les autres ». Ci-dessous, dans la succession d'images provenant des différentes générations du test, des hachures non visibles sur la première génération d'images commencent doucement à être perceptibles en troisième génération et devenir franchement problématiques à partir de la cinquième.

StyleGAN-2 artéfacts photos hachures
Crédits : Sina Alemohammad et al.

Autophagie et éloignement des données réelles

Cet exemple illustre ce qu'ils ont constaté aussi sur d'autres modèles et qu'ils théorisent dans leur article. Ce processus répété crée ce qu'ils appellent une boucle « autophage » (qui se consomme elle-même).  « Sans suffisamment de données fraîches réelles à chaque génération d'une boucle autophage, les futurs modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement », expliquent-ils.

En comparant les données créées dans une « boucle totalement synthétique » avec de réelles données, ils observent, comme on peut le voir ci-dessous, que les données « synthétiques » s'éloignent petit à petit des données « réelles » et forment petit à petit un groupe de données bien distinct par rapport aux autres alors que ce n'était pas le cas dans les premières générations.

boucle autophage IA 1
Crédits : Sina Alemohammad et al.

Si la « boucle totalement synthétique » est appliquée sur des données ayant des biais d'échantillonnage, les données ne fusionnent pas, mais on peut observer ci-dessous qu'elles dérivent en se regroupant autour de certains points (de haute qualité, précisent les chercheurs).

boucle autophage IA 2
Crédits : Sina Alemohammad et al.

Les chercheurs admettent dans leur article qu'en pratique, il y a peu de chance que les créateurs de ce genre de base de données ne le fassent qu'avec des données « synthétiques ».

Ils ont donc observé ce qu'il se passait dans le cas où les données d'apprentissage sont constituées d'un ensemble de données réelles fixe, progressivement complété par des données synthétiques, ce qu'ils ont appelé une « boucle d'augmentation synthétique ». Mais, selon leur expérience, « un ensemble de données réelles fixe ne fait que ralentir la dégradation des modèles génératifs ».

Ce n'est qu'en ajoutant seulement des données réelles « fraiches » qu'ils arrivent à ce que les modèles ne tombent pas dans un «  Model Autophagy Disorder » (MAD), en français, trouble de l'autophagie de modèle.

Des modèles « fous » ou juste « bugués » ?

« Model Autophagy Disorder », le terme inventé par Sina Alemohammad et ses collègues, rappelle le vocabulaire médical. Et son acronyme, MAD, résonne clairement comme la volonté de poser un diagnostic psychiatrique sur ces modèles. D'autant que l'on peut lire aussi dans leur article des phrases évoquant, avec une pointe d'ironie, la folie, par exemple, « Training exclusively on synthetic data leads to MADness » (littéralement en français, « Entraîner exclusivement sur des données synthétiques conduit à la folie »).

Si leur article montre de façon convaincante une vraie question sur l'utilisation des données « synthétiques » et nous donne des clés pour comprendre leurs bugs, cette utilisation du vocabulaire médical paraît plus problématique pour ne pas tomber dans les travers de l'anthropomorphisme pointé parfois par la linguiste Emily Bender.

Il n'en reste pas moins que les auteurs de cette étude sont clairs : « selon un scénario catastrophe, si le MAD n'est pas contrôlé pendant plusieurs générations, il pourrait empoisonner la qualité et la diversité des données de l'ensemble de l'internet. En l'absence d'un tel scénario, il semble inévitable que l'autophagie de l'IA entraîne, même à court terme, des conséquences imprévues jusqu'à présent ». Ils demandent aux praticiens qui « utilisent délibérément des données synthétiques pour l'entrainement parce que c'est bon marché et facile » de prendre leurs conclusions comme un avertissement et d'envisager de tempérer leurs habitudes.

Les chercheurs proposent aussi, « étant donné que les modèles génératifs n'ajoutent pas nécessairement des métadonnées aux images générées », que les utilisateurs ajoutent des filigranes à leurs images ainsi générées, pour qu'elles soient rejetées lors de la création de base de données d'entrainement. Cette proposition ne vaut, en revanche, pas pour les textes.

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Exemple sur un modèle de génération d'images

Autophagie et éloignement des données réelles

Des modèles « fous » ou juste « bugués » ?

Fermer

Commentaires (37)



Mais leur entrainement répétitif sur des données qu’ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.




Non, sans blague.
Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire



Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.



Impatient de lire une étude comparative IA génératives vs Gartic Phone. :transpi:


Même si l’existance du phénomène est attendue (ça fait d’ailleurs un moment que pas mal de spécialistes alertent là dessus), ça ne veut pas dire qu’il est inintéressant de l’étudier dans le détail, ne serais-ce que pour avoir une meilleure idée du niveau des risques que ça pose.


L’intérêt d’une étude scientifique (une fois que son résultat aura été validé par d’autres études similaires aboutissant aux mêmes conclusions) c’est que, même si tu t’attendais intuitivement à ce résultat, tu peux maintenant t’appuyer dessus pour enrichir ta réflexion par autre chose qu’un argument de café du commerce ou une parole de ministre.


Ça me semble évident. Le truc de base produit des artefacts, qu’il n’est bien sûr pas capable de corriger, et si je comprends bien comment ça marche, tout ce qu’on peut faire c’est entraîner plus plus plus pour les faire disparaître autant que possible.



Est-ce que quelqu’un peut m’expliquer en quoi c’est pas évident, au point qu’on vérifie la chose ? (Après étudier à quel point ça dérive vite, pourquoi pas… Mais pourquoi y’a-a-t-il besoin de dire que oui, ça dégénère).



Je crois que je viens de trouver le mot adapté : les IA génératives dégénèrent :D


xlp

Ça me semble évident. Le truc de base produit des artefacts, qu’il n’est bien sûr pas capable de corriger, et si je comprends bien comment ça marche, tout ce qu’on peut faire c’est entraîner plus plus plus pour les faire disparaître autant que possible.



Est-ce que quelqu’un peut m’expliquer en quoi c’est pas évident, au point qu’on vérifie la chose ? (Après étudier à quel point ça dérive vite, pourquoi pas… Mais pourquoi y’a-a-t-il besoin de dire que oui, ça dégénère).



Je crois que je viens de trouver le mot adapté : les IA génératives dégénèrent :D


Pourquoi il y a besoin de démontrer ce qui se passe? Peut-être parce que, entre ceux qui vont relativiser les échecs de l’IA avec des comparaisons photographiques et ceux qui vont exagérer les réussites des algorithmes profonds en cachant des défauts par des subterfuges illusionistes, il y a ceux et celles qui pratiquent la science avec méthode et discipline.


Bah au final ça démontre que l’IA est proche de l’humain.



Enfermée dans sa bulle, elle devient conne.


L’humain réduit à nourrir indéfiniment l’algorithme.



Petite digression : ça me fait penser à mon nouveau syndic (l’un des 4 ou 5 groupes immobiliers nationaux ou européens) qui se prétend digitalisé et qui m’a fourni un appel de fonds avec des dizaines de lignes au même libellé identique, suite à une migration informatique. Champion l’algo, mais j’imagine que la vérification humaine de toutes ces lignes (jamais eu un appel de fond de 3 pages auparavant) n’est pas nécessaire puisque la machine ne se trompe soit-disant jamais.



(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire




Après c’est pas plus mal que ça soit verifié et étudié, fin pour moi c’est pas le sujet le moins intéressant.


La modélisation imite très bien la réalité.
Jusqu’à la dégénérescence due à la consanguinité. :mdr2:


Les résultats de cette étude me semblent être une très bonne nouvelle. Ça devrait poussé les générateurs d’images à watermarker les images générées. Comme ça elles pourront ainsi facilement être retirés des bases d’images utilisées pour l’apprentissage.



Et en prime, ça permettra aussi d’identifier facilement les fichiers générés automatiquement des autres pour M. Tout-le-monde.


Ca veut aussi dire qu’on peut empoisonner des bases de données “publiques” (photos de profil, dessins, …)



Les sites qui se plaignent du pillage de leurs données via les API pourraient également générer plein de faux trucs qui ne seraient pas filtrés par ceux qui ne paient pas.


misocard

Ca veut aussi dire qu’on peut empoisonner des bases de données “publiques” (photos de profil, dessins, …)



Les sites qui se plaignent du pillage de leurs données via les API pourraient également générer plein de faux trucs qui ne seraient pas filtrés par ceux qui ne paient pas.


La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée :D


Ça marche comme chez les humains : Quand toute la famille se marie entre frères et sœur ça ne se voit pas forcément à la première génération, mais au bout de quelques générations y’a quelques problèmes qui apparaissent :)



C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?


Quand l’IA te dira que ChatGPT est le fer de lance métallique de OpenAI ?
Ça dépend de la partie “hardcodée” du truc. S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés. Des tournures inusitées ? Des fautes de grammaires ?



Voir les IA de négociation de Facebook et leur propre langage ?



(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire



Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.



Impatient de lire une étude comparative IA génératives vs Gartic Phone. :transpi:




Heureusement que le monde de la recherche ne se base pas sur ce genre de commentaires.



Avoir l’intuition d’un résultat attendu ne vaut pas démonstration.
De même l’investigation des raisons pour lequel ledit résultat est obtenu peut être source d’informations permettant de modifier les process d’apprentissage par exemple.



Exemple: l’histoire de la génétique montre comment on est passé d’une intuition de l’hérédité (les enfants ressemblent souvent aux parents) à une démonstration qui a permis de poser les bases d’une nouvelle science.



fofo9012 a dit:


C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?




Pour le texte, je dirais que le résultat sera un appauvrissement de son modèle de langage et de la perte d’information. Un peu comme les débats de 200 caractères sur Twitter, c’est pauvre car impossible de développer l’idée.



Comme GPT est entraîné en apprenant à lire du texte, de facto il retient des concordances de mots dans un contexte (c’est ça qui fait qu’il est capable de répondre à une question). Donc au fur et à mesure, je pense qu’il va y avoir des pertes car le contexte s’appauvrira et il finira par être de plus en plus à côté de la plaque.



Par contre un traitement en mode AutoGPT ou GPT s’auto challenge au travers de plusieurs questions/réponses pour produire un résultat c’est une approche très intéressante pour justement éviter cette “consanguinité”.



(reply:2143599:consommateurnumérique)
l’Humain se reposant de+en+ sur ‘Chat GTP’, ça ne pas alle
r en s’arrangeant c’tte histoire !!!




“moins j’en fais..et mieux je me porte” :reflechis:


J’aimerais bien voir le résultat au bout de 50, 100, 1000 ou 10000 itérations…



Bourrique a dit:


La modélisation imite très bien la réalité. Jusqu’à la dégénérescence due à la consanguinité. :mdr2:




exactement ce que je pensais :) problème de consanguinité :D



xlp a dit:


[…] S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés.




Je rappelle qu’à la base, TOUS les mots sont inventés. :D



SebGF a dit:


La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée :D




Et les développeurs qui publient sur Github leur code généré avec Copilot :non:


Je pense cet “empoisonnement” est un problème qui va se poser de plus en plus dans le futur.
Ca concerne tous les secteurs où l’IA sera utilisé.




  • Génération d image : de plus en plus d images générés sur des articles de presse, réseaux sociaux, banques d images

  • Génération de texte : des articles et autres contenus générés par IA

  • Code : comme tu l’as dit, code généré sur github



Et on est encore au début, si le taux d’adoption des IA augmente avec le temps et l’amélioration des performances et des outils, le problème va s aggraver. Ça sera plus difficile d avoir un jeu de données récent et sain pour entraîner une IA


Si le nombre d’artefacts (ou biais, ou whatever) diminuait à chaque génération, les IA actuelles seraient en boucle permanente d’apprentissage. Et depuis le temps on aurait des IA. Et les entreprises qui améliorent leur IA ne se fatigueraient pas a collecter des données IRL si elles pouvaient simplement utiliser celles que leur IA fabrique déjà.



L’idée qu’une IA pourrait permettre de construire une meilleure version d’elle même (même de 1%) est pour l’instant de la science-fiction. Souhaitons que ca le reste…



(reply:2143691:consommateurnumérique)




Je ne critique pas du tout la volonté d’étudier la chose.



Seulement, de ce que je sais de l’IA, à part atteindre le “modèle parfait” qui n’a plus besoin d’amélioration (ce qui veut dire aussi qu’on ne créé plus rien, parce que “génère moi quelqu’un avec un smartphone dans la main” entraîné avec des photos d’il y a 30 ans ça serait rigolo…), les modèles devront continuer à être entraînés.



Si on commence à les entraîner massivement avec leur propre contenue biaisé… S’ils étaient “au courant” du bias, ils ne génèreraient pas… Donc ils vont s’entraîner à créer plus de biais, donc il me semble logique que le problème s’accroisse.



Question : y’a-t-il une faille dans mon raisonnement ?






Ton raisonnement me paraît juste. Mais il n’est pas suffisant. Je voulais juste dire que sans étude scientifique du phénomène, le marketing des sociétés travaillant avec l’IA peut aussi émettre un raisonnement qui paraît juste. Se tromper est tellement fréquent. Un raisonnement peut aussi être trompeur si on étudie pas sérieusement le sujet.



cyp a dit:


Et les développeurs qui publient sur Github leur code généré avec Copilot :non:




ah oui bien vu !



(reply:2143793:consommateurnumérique)




En gros (et je ne réagissais pas à cet article précisément), ce qui m’a choqué c’est l’apparente nouvelle renversante : entraîner les IA sur les résultats des IA cause des problèmes.



Quelqu’un aurait sorti un article disant qu’entraîner en boucle les IA améliore leur résultats, ça ça m’aurait choqué.



Je suis perturbé par le fait qu’il semble que pour certains c’est un résultat inattendu.
(Quant à ce que disent les sociétés elles-mêmes, je prends avec des pincettes tout ce qui a un conflit d’intérêt dont je suis au courant)


comme certains disent : “garbage in, garbage out”. Cette mousse créée pa rles département marketing des entreprises de l’inforamtique n’est fait que pour tirer à la hausse la valorisation de leurs actions. Avant il y avait le metaverse mais ça a été un flop. Le vocabulaire “IA” ou “AI” est plus accrocheur et fait un tabac, même cela reste encore bien nébuleux tout ça, alors fonçons !


Pour le coup l’IA génératrice, c’est loin d’être aussi nébuleux que l’était le metavers : c’est concret, ça existe, et ça se consomme. Les offres de service autour se développent ainsi que les produits qui se basent dessus (chatbot de Carrefour basé sur GPT par exemple).


Sous-titre alternatif : “Garbage in, garbage out” :fumer: