Le Comité national pilote pour l’éthique du numérique donne 22 préconisations sur l’IA générative

Saisi en février par Jean-Noël Barrot, le Comité national pilote pour l’éthique du numérique a publié son avis sur les enjeux d'éthique liés aux systèmes d’intelligence artificielle générative et livre 22 préconisations pour la conception, la recherche et la gouvernance sur le sujet.

Quelques mois après la sortie de ChatGPT et alors que le sujet des IA génératives commençait à prendre de l'ampleur, le Ministre délégué chargé de la transition numérique, Jean-Noël Barrot, saisissait le Comité national pilote pour l’éthique du numérique (CNPEN). Il lui demandait d'examiner « les questions d'éthiques liées à la conception, aux usages, aux impacts sur la société ainsi que les accompagnements nécessaires à la mise en œuvre de ces outils, en considérant prioritairement la génération automatisée de textes ».

Fin juin, Raja Chatila, Laurence Devillers, Alexei Grinbaum, les trois co-rapporteurs, lui ont remis le document et l'ont publié [PDF] début juillet.

Le rapport propose une introduction très didactique, renseignée et détaillée. Par exemple, les auteurs expliquent qu'outre les objectifs scientifiques qui étaient visibles jusque-là, les enjeux économiques de ces modèles « sont parus au grand jour depuis la création en novembre 2022 de l’interface ChatGPT adossée au modèle de langue GPT-3.5 (puis GPT-4) permettant son déploiement grand public, ce qui a provoqué un engouement du public, démultiplié par les médias, souvent au détriment de la connaissance d’autres modèles de langue comme, par exemple, le modèle européen BLOOM ».

Il rappelle aussi l'origine de ces technologies dans les recherches en informatique depuis les années 1950 et redonne la définition d'un modèle de fondation : « modèle de grande taille fondé sur une architecture de réseau de neurones profond, entraîné sur une grande quantité de données non annotées (généralement par apprentissage auto-supervisé) ».

Les chercheurs donnent ensuite 22 préconisations prenant en compte autant les enjeux éthiques, juridiques qu'écologiques et environnementaux.

Parmi ces préconisations, 12 concernent la gouvernance de ces IA génératives et 10 la conception et la recherche sur ces systèmes.

Séparer publication d'un modèle et mise sur le marché

L'une des préconisations phares du rapport du Comité est de séparer le fait de publier un modèle et celui de le mettre sur le marché. Pour le Comité, « dans le cadre du AI Act européen, il est nécessaire de considérer les modèles de fondation mis sur le marché et les systèmes d’IA générative comme des systèmes d’IA à haut risque. En revanche, la publication d’un modèle de fondation en libre accès sous licence non-commerciale ne doit pas être considérée comme la mise sur le marché, néanmoins elle doit impliquer des obligations de transparence et d’évaluation par les concepteurs ».

Mais cette mise en libre accès d'un modèle doit être conditionnée « à la prise de conscience par leurs concepteurs des enjeux d’ouverture et des risques de mésusage. Des critères de transparence et d’évaluation doivent être explicités et appliqués ».

Le Comité estime que la responsabilité légale sur ces systèmes d'IA et les modèles « doit être attribuée aux fournisseurs des modèles de fondation et aux déployeurs d’applications spécifiques d’IA générative à partir de tels modèles ». Il étend la responsabilité morale aux concepteurs des modèles et aux développeurs des systèmes d'IA les utilisant.

Adaptation du RGPD et du droit d'auteur

Il demande à ce que le Comité européen de protection des données (CEPD) clarifie l'articulation entre l'AI Act et le RGPD.

Concernant les droits des utilisateurs de ces technologies, le Comité préconise qu'une réflexion soit menée et un cadre juridique posé autour du stockage et de la réutilisation des « traces linguistiques des interactions entre les modèles de langue et les êtres humains » à l'image de ce qui existe pour les données à caractère personnel.

Il constate que la directive sur le droit d'auteur et les droits voisins adoptée en 2019 par le Parlement européen est déjà chamboulée, tant par rapport aux œuvres utilisées en amont du processus de création des modèles (l'entrainement), qu'en aval sur les textes produits par les IA génératives. Il se demande comment faire valoir concrètement la possibilité de s'opposer à la fouille de textes et de données (« opt-out ») prévue par l'article 4 de cette directive. Le CNPEN pose la question de la légifération sur la référence de la source dans les réponses données par les systèmes d’IA générative et l'obligation d'insérer des « codes en filigrane » pour « maintenir la possibilité de distinguer la production d'une machine de celle d'un auteur humain ».

Il demande aux acteurs économiques et autorités publiques de faire preuve de prudence « dans la vitesse d’adoption des systèmes d’IA générative et prévoir des évaluations préalables et continues ».

Pour la pérennisation d'une réflexion sur le sujet, le Comité préconise la création d'un « centre de compétence » consacré à la recherche et à la formation relatives aux questions éthiques des systèmes d’IA.

Il propose aussi la création d'un écosystème capable de recenser les bonnes et mauvaises pratiques autour d'une « plateforme de mutualisation » (sans expliquer concrètement ce qu'elle serait) ainsi que d'une agence de contrôle.

Enfin, le CNPEN considère qu'il est nécessaire de développer une métrique de l'impact environnemental de ces systèmes d'IA générative et exiger plus de transparence sur leurs effets sur l'environnement.

Éviter les excès de contrôle et autres conseils

Au-delà de la gouvernance de l'utilisation de ces systèmes d'IA générative, le Comité adresse des préconisations aux concepteurs et chercheurs qui travaillent dessus.

Alors que nous ne sommes qu'au début de l'utilisation de ces modèles, le CNPEN demande aux concepteurs de systèmes d'IA générative de prêter attention aux éventuelles tensions éthiques que leur système peut engendrer. « Si une tension potentielle est identifiée, ils doivent envisager de manière méthodique une solution technique fondée sur des recherches visant à réduire ou à faire disparaître la tension éthique, puis évaluer cette solution dans des contextes d’usage réalistes » affirme-t-il.

Si l'ajout de filigrane est proposé dans les préconisations de gouvernance, le Comité pousse les concepteurs à le mettre en place d'eux-mêmes.

Il demande de faire attention à ne pas trop brider les modèles et d'éviter les excès de contrôle (« overpolicing ») : « les concepteurs doivent veiller à ne pas altérer le langage généré au-delà du nécessaire, en particulier pour des raisons réglementaires ou idéologiques ». Toutefois, le CNPEN enjoint les fournisseurs de modèles à « mettre en œuvre des mécanismes de contrôle et de filtrage spécifique » pour réduire les problèmes d'anthropomorphisation et informer l'utilisateur de risques à ce sujet.

Le comité appelle les concepteurs à faire attention à la qualité des sources utilisées pour l'apprentissage ainsi qu'au choix des hyperparamètres du modèle qui peuvent avoir des conséquences importantes sur les résultats envoyés en sortie.

Il recommande aux concepteurs de mettre en œuvre une évaluation quantitative des biais de leurs modèles à base de jeux d'essai standardisés et de corpus d'évaluation en libre accès. Pour le Comité, les concepteurs d'un modèle doivent mener des études, « éventuellement en faisant appel à une équipe indépendante pour mener des tests adversaires », sur la production de sorties potentiellement dangereuses avant sa diffusion et rendre publics leurs résultats.

Pour maintenir une diversité dans les réponses données par les systèmes d'IA générative, le CNPEN pousse les concepteurs à « respecter la diversité des langues humaines et des cultures qu’elles véhiculent » lors de la constitution des corpus d'apprentissage. Enfin, il demande à ce que ces systèmes puissent être le plus possible paramétrables pour que l'utilisateur puisse générer des contenus moins probables statistiquement.