L'IA, plagiaire scientifique de haute volée

Copier/GPT/Coller
Tech 4 min
L'IA, plagiaire scientifique de haute volée
Crédits : wwing/iStock

En recherche, le plagiat est un problème d'intégrité qui peut remettre en cause tout l'édifice scientifique. Il existe des logiciels de détection, mais les dernières avancées en intelligence artificielle menacent ces solutions et semblent permettre des plagiats quasiment indétectables.

Si le plagiat pose des questions dans bon nombre de domaines de création intellectuelle, utilisé en recherche il devient une menace pour l'intégrité scientifique. De nombreux cas de plagiats scientifiques sont régulièrement mis en lumière notamment par le site Retraction Watch tenu par des journalistes scientifiques américains.  La France n'est pas épargnée. Cet été encore, Le Monde révélait que « la thèse de doctorat du sénateur LR Stéphane Le Rudulier est entachée de plagiat ».

Au premier abord, les conséquences pourraient sembler se cantonner aux carrières de chercheurs. Mais cela peut aussi avoir des conséquences sur les connaissances scientifiques, comme pour le cas du neurologue Paul McCrory, très proche des instances d'organisations sportives, qui s'en est servi pour assoir son autorité sur l'élaboration des protocoles de commotion cérébrale et minimiser l'encéphalopathie traumatique chronique chez les sportifs.

De beaux paraphraseurs

Depuis quelques années, des logiciels de détection de plagiat, comme Compilatio, Smodin ou encore PlagScan permettent aux enseignants et aux chercheurs qui suspectent un de leurs collègues ou étudiants de plagier, de vérifier si le texte a été plus ou moins copié/collé d'un autre article scientifique ou d'une source accessible sur internet. Des outils en ligne comme Spinbot ou SpinnerChief permettent déjà de paraphraser, de façon rudimentaire, des textes anglophones pour passer un peu plus entre les gouttes.

Mais des chercheurs en intelligence artificielle de l'Université de Göttingen viennent de mettre en lumière l'utilisation potentiellement très problématique des grands modèles de langage pour plagier des articles scientifiques.

Dans un article qu'ils vont présenter en décembre prochain à la conférence EMNLP (conférence scientifique internationale sur ce genre de méthodes), ils expliquent que ces outils d'intelligence artificielle peuvent non seulement tromper facilement les logiciels de détection, mais sont aussi redoutables pour rendre le plagiat inaperçu aux yeux d'un humain.

Jan Philip Wahle et ses collègues ont entrainé le fameux grand modèle de langage d'OpenAI, GPT-3, avec des données de Wikipédia, des articles scientifiques mis en ligne sur arXiv et des thèses d'étudiants. Ils ont fait de même avec T5, un autre grand modèle de langage, créé par des chercheurs de Google pour faire de la traduction. Puis ils les ont utilisés pour paraphraser des textes scientifiques et ensuite les soumettre à PlagScan et à l'œil humain.

Résultat ? En comparant des textes originaux d'articles scientifiques et leurs équivalents paraphrasés, les humains interrogés ont correctement choisi le plagiat à 53% quand il était réalisé avec GPT-3 et à 56% avec T5... à comparer avec les 82% de détection pour ce même test quand ils l'ont fait passer au paraphraseur en ligne SpinnerChief et aux 50% de chance si on désigne le fautif au hasard.

En demandant leur avis à des chercheurs habitués à relire des articles, Jan Philip Wahle et ses collègues ont aussi montré que les articles générés par GPT-3 étaient quasiment aussi clairs que les originaux. Si leur fluidité et leur cohérence péchaient encore un peu, le grand modèle de langage réussit quand même à être beaucoup plus lisible que SpinnerChief.

Une menace préoccupante pour la recherche... et les profs

Dans un thread Twitter, Jan Philip Wahle juge ces résultats préoccupants pour l'intégrité scientifique. Les chercheurs suggèrent, dans la conclusion de leur article, que l'utilisation des grands modèles de langage « pourrait augmenter le nombre de cas de plagiats automatisés ».

Mais leur travail montre aussi que l'utilisation de ces méthodes augmente la détection automatique des plagiats, que ce soit sur des textes générés par SpinnerChief ou par l'utilisation de grands modèles de langage eux-mêmes. Ils sont au niveau voire un peu meilleurs que les humains pour détecter des paraphrases de SpinnerChief, mais surtout beaucoup plus efficaces que PlagScan. Et, alors que les humains et PlagScan ne peuvent pas faire mieux que le hasard pour détecter des paraphrases générées par ce genre de modèles de langage, T5 et GPT-3 arrivent à les détecter à plus de 60%.

Reste que l'utilisation automatique laisse parfois des expressions un peu étranges, que le chercheur toulousain Guillaume Cabanac appellent des « expressions torturées », qui sont des paraphrases de termes techniques qui devraient rester inchangés. Il a, lui, créé un outil de détection de ces expressions appelé le Problematic Paper Screener.

Si de plus en plus de chercheurs en informatique s'intéressent à la détection de plagiat, Jan Philip Wahle et ses collègues pointent dans leur conclusion que la fausse accusation de chercheurs peut détruire des carrières et que la difficulté de détection des plagiats rend les décisions légales particulièrement complexes. Pour eux, « tous les cas doivent être évalués attentivement avant toute décision finale ».

Le problème de plagiat aidé par ces grands modèles de langage ne concerne pas seulement la publication scientifique. Des étudiants américains utilisent d'ores et déjà GPT-3 pour écrire leurs devoirs, ce qui rend de plus en plus complexe le travail de vérification, d'identification des plagiats et d'évaluation de leurs profs.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !