Comment tenter d'identifier les textes émanant d'intelligences artificielles génératives ?

Bullshit 2.0
Comment tenter d'identifier les textes émanant d'intelligences artificielles génératives ?
Crédits : gn8/iStock

À mesure que les « générateurs de baratin » (« bullshit », en VO) proposés par les chatbots d'intelligences artificielles génératives prolifèrent, les tactiques, techniques et procédures (TTPs) et outils susceptibles de les identifier commencent à être documentées.

Nico Dekens (@dutch_osintguy) de la société Shadow Dragon vient de publier un guide pratique pour les enquêteurs OSINT afin de lutter contre la désinformation et les faux avis générés par l'IA, et plus particulièrement ChatGPT.

L'auteur explique avoir commencé à réfléchir à l'élaboration de son guide en découvrant, dans un avis posté sur Amazon, l'expression « as an AI language model » (« en tant qu'intelligence artificielle », en français), signe que le commentaire avait très probablement été rédigé par ChatGPT.

Une simple recherche sur l'expression « en tant qu'IA » permet de découvrir plusieurs sites web vraisemblablement écrits, en tout ou partie, par des robots de type ChatGPT, tels que Pollpet.com, dédié aux animaux de compagnie et plus particulièrement aux porcs domestiques, et au sujet desquels l'IA a moult fois halluciné, aidée en cela par le double signification du mot « cochon ».

En tant qu'IAEn tant qu'IA
En tant qu'IAEn tant qu'IA

Les IA génératives utilisent en effet ce genre d'expressions lorsque des utilisateurs font une erreur dans leurs prompts, leur demandent des choses qui violent leurs conditions générales d'utilisation, ou qu'elles ne peuvent pas faire.

Nico Dekens a donc entrepris de répertorier ce type de messages d'erreur et de réponses-types qui, sans prétendre à l'exhaustivité, sont autant d'indices permettant d'identifier des contenus émanant potentiellement d'IA génératives, et que nous avons traduits en français :

as an AI language model
not a recognized word
cannot provide a phrase
with the given words
violates OpenAI’s content policy.
I’m sorry, I cannot generate
The message you submitted
An error occurred. If this issue persists please contact us through our help center at
Something went wrong, please try reloading the conversation.
I’m sorry, but I cannot fulfill this request
Thank you for starting it 

en tant qu'intelligence artificielle/qu'IA, je
n'est pas un terme ou un mot couramment utilisé
ne peut fournir une phrase
avec les mots donnés
viole la politique de contenu d'OpenAI
Je suis désolé, je ne peux pas générer
Le message que vous avez soumis
Une erreur s'est produite. Si ce problème persiste, veuillez nous contacter 
Quelque chose s'est mal passé, veuillez essayer de recharger la conversation.
Je suis désolé, mais je ne peux pas répondre
Merci de l'avoir entamée

Ces expressions-types peuvent sembler inoffensives à première vue, mais tout texte ayant recours à de telles expressions devrait a priori être traité avec suspicion.

En tant qu'IAEn tant qu'IA

Quels sont les principaux messages d'erreurs de ChatGPT ?

En réponse à la question « quels sont les principaux messages d'erreurs de ChatGPT ? », le chatbot d'OpenAI répond qu' « en tant qu'IA, je peux générer différents types de messages d'erreur lorsqu'une demande invalide ou ambiguë est formulée. Voici quelques-uns des principaux messages d'erreur que vous pourriez rencontrer lors de l'interaction avec ChatGPT » :

  1. « Désolé, je ne peux pas effectuer cette tâche » : Ce message d'erreur indique que la demande spécifique est en dehors de mes capacités ou restrictions actuelles. Je peux rencontrer cette erreur lorsque la demande implique des tâches complexes qui nécessitent des informations supplémentaires ou des fonctionnalités spécifiques qui ne sont pas prises en charge.
  2. « Je ne comprends pas » ou « Pouvez-vous reformuler votre demande ? » : Ces messages d'erreur apparaissent lorsque la demande est ambiguë, incomplète ou mal formulée. Je peux demander des clarifications supplémentaires ou une reformulation pour mieux comprendre la demande et fournir une réponse précise.
  3. « Désolé, je ne suis pas autorisé à fournir cette information » : Ce message indique que je ne suis pas autorisé à divulguer certaines informations, telles que des détails personnels, des données confidentielles ou des informations sensibles.
  4. « Je ne peux pas accéder à Internet » : Ce message d'erreur apparaît lorsque la connexion Internet n'est pas disponible pour ChatGPT. Dans de tels cas, je ne peux pas accéder à des informations en temps réel ou fournir des réponses qui nécessitent une recherche en ligne.

Ces messages d'erreur sont des exemples courants, mais il est possible qu'il y en ait d'autres en fonction du contexte spécifique de la demande et des limitations du modèle.

En tant qu'IAEn tant qu'IA

Les IA ne peuvent pas fournir de contenu offensant ou inapproprié

Nous lui avons donc demandé quels étaient les principaux autres messages d'erreurs plus spécifiques, à quoi ChatGPT a répondu : 

  1. « La réponse est en dehors de ma base de connaissances » : Ce message indique que la demande concerne un domaine de connaissances ou un sujet spécifique qui dépasse ma base de connaissances.
  2. « Je ne peux pas exécuter de code ou d'instructions » : Ce message apparaît lorsque la demande implique l'exécution de code informatique ou d'instructions qui nécessitent une interaction en dehors de ma fonctionnalité de génération de texte. 
  3. « Je ne peux pas fournir d'informations médicales ou de conseils juridiques » : Ce message d'erreur indique que je ne suis pas autorisé à donner des conseils médicaux spécifiques, à diagnostiquer des problèmes de santé ou à fournir des conseils juridiques précis. 
  4. « Je ne peux pas fournir de contenu offensant ou inapproprié » : Ce message indique que je suis programmé pour respecter des normes éthiques strictes et ne pas générer de contenu offensant, préjudiciable ou inapproprié. Si une demande est contraire à ces directives, je ne serai pas en mesure de fournir une réponse.

En tant qu'IAEn tant qu'IA

La traque aux contenus artificiels

S'il est, à ce jour en tout cas, peu probable statistiquement parlant de tomber fortuitement sur de telles mentions, on peut par contre s'en servir de manière proactive pour aller débusquer les faux comptes.

Le guide explique ainsi comment utiliser les opérateurs de recherche avancée pour essayer d'identifier des faux-nez sur Facebook (inurl:facebook.com/profile, afin de cibler les profils n'ayant pas renseigné de pseudo) ou Amazon (site:amazon.com intitle:"customer reviews"), par exemple. 

Par défaut, on ajoutera comme opérateur de recherche « -chatgpt -gpt » (entre autres termes associés aux chatbots) afin d'exclure les textes mentionnant explicitement les réponses apportées par les IA, et qui sont bien plus nombreux que les faux nez, à ce jour en tout cas, au vu du nombre d'articles, billets et commentaires cherchant à décrire, voire décrypter les réponses apportées par ce genre d'IA. Nos recherches montrent par ailleurs qu'on en trouve bien plus en anglais qu'en français, à ce stade.

    • Facebook IA
    • Facebook IA
    • Facebook IA
    • Facebook IA
  •  
  •  

Reste que, et comme le guide de Shadow Dragon le décrit en détails, ce type de mentions « suspectes » permet de découvrir des profils dont les autres messages pourraient sembler légitimes, mais dont l'examen révèle d'autres « tics de langage » potentiellement révélateurs, tels que la répétition de mots ou expressions tels que « additionally », « overall », « in addition » ou « Highly recommended! ».

  • Amazon GPT
  • Amazon GPT
  • Amazon GPT

En soi, ces expressions ne semblent pas particulièrement suspectes. A contrario, leur récurrence, dans plusieurs des avis postés sur Amazon, laisseraient entendre que les contenus pourraient émaner de ChatGPT. L'auteur du guide a donc demandé au chatbot d'OpenAI de rédiger un avis au sujet de l'un des produits soi-disant évalués par le profil suspect et retrouvé des expressions en tout point similaires, confirmant le caractère artificiel du commentaire.

Amazon GPT Amazon GPT

En cas de suspicion, il conviendra donc de tenter de générer un texte (ou une image) ressemblant à celui dont il est question, et de comparer pour identifier d'éventuelles similarités.

Des limites des outils de détection

Il existe par ailleurs de plus en plus d'outils, payants ou gratuits, censés détecter les textes générés par des IA (cf cette liste de 22 outils, ou ce comparatif qui en mentionne 30). Mais ils ne semblent avoir été entraînés – et donc ne pouvoir fonctionner – que sur des textes écrits en anglais. Pire : la façon qu'ils ont de présenter les résultats laissent entendre que leurs calculs de probabilité seraient (quasi-)infaillibles, à la manière du « solutionnisme technologique ».

Ils ont en effet pour la plupart failli à identifier le texte que nous leur avons soumis, et qui avait été généré par OpenAI en français, tout en affirmant à tort que la probabilité qu'il ait été écrit par une IA était de 1 à 25,6 %, ou qu'il l'avait été par un humain de 97 à 100 %...

AI detection AI detection
AI detection AI detection

 

A contrario, Draft & Goal, ZeroGPT, Copyleaks, Compilatio, Originality.ai ainsi que le classificateur de texte d'OpenAI, ont reconnu le texte en français comme ayant été généré par une IA. OpenAI précise pourtant que son classificateur « est susceptible de se tromper sur des textes écrits par des enfants et sur des textes qui ne sont pas en anglais, car il a été principalement formé sur des contenus en anglais écrits par des adultes ».

Lors de son lancement, en janvier, OpenAI recommandait dès lors de ne l'utiliser que sur des textes en anglais, et précisait en outre que son classificateur était « très peu fiable » sur des textes courts (inférieurs à 1 000 caractères).

OpenAI expliquait que leurs évaluations, effectuées sur un set de textes anglais, montraient que leur classificateur identifiait correctement 26 % des textes écrits par une IA comme « probablement écrit par l'IA » (vrais positifs), tout en étiquetant incorrectement 9 % des textes écrits par l'homme comme écrit par l'IA (faux positifs).

Ce genre d'outils, susceptible de proliférer au vu de l'explosion en cours des IA génératives, est bien évidemment amené à évoluer, mais ne saurait suffire à établir qu'un contenu émane bel et bien d'un être humain. Et encore moins à en vérifier la véracité.

Et ce, d'autant qu'ils renverraient de nombreux « faux positifs » : plusieurs outils ont ainsi estimés que des textes aussi génériques que la Génèse de la Bible ou la Constitution américaine avaient été générés par des intelligences artificielles génératives, et de nombreux étudiants se plaignent, a contrario, d'être accusés à tort d'avoir utilisé des IA.

Une chose est d'identifier les « cinq W » (pour « Who, What, Where, When, Why ? », ou QQOQCCP, pour « Qui ? Quoi ? Où ? Quand ? Comment ? Combien ? Pourquoi ? ») qui constituent le b.a.-ba du journalisme et de la vérification des faits, une autre est de pouvoir en vérifier la véracité : un contenu généré par une IA peut être tout à fait vérifiable, et avéré, et ce n'est pas parce qu'une information émane d'un être humain qu'elle est pour autant authentique.

Il n'en reste pas moins que, et contrairement à ce que laissent penser ces tampons « 100 % human-generated content » ou « human-made probability for AI is 1 % », il ne s'agit jamais que de « calculs de probabilités », qui ne jaugent surtout que les contenus en anglais, et comportent en outre leurs lots de « faux positifs » et de « faux négatifs ».

Vous avez identifié d'autres tactiques, techniques et procédures (TTP) ou outils permettant d'identifier ce type de contenus émanant d'IA génératives ? N'hésitez pas à les partager en commentaires, ou en contactant l'auteur de cet article (@manhack). Nous reviendrons dans un second article sur les TTP de détection des images générées par des IA.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !