Bruno Bonnell, secrétaire général pour l’investissement (France 2030), a envisagé en septembre dernier l'utilisation de l'intelligence artificielle pour présélectionner des projets de recherche. Le sénateur Pierre Ouzoulias souligne l'incohérence de cette vision de l'évaluation de la recherche avec la « Déclaration de San Francisco sur l'évaluation de la recherche » (Dora) signée par de nombreuses institutions françaises.
Depuis janvier 2022, Bruno Bonnell est à la tête du Secrétariat général pour l'investissement (SGPI) qui gère le budget de 54 milliards d’euros du plan « France 2030 » dont le but est de financer l'industrialisation et l'innovation dans les domaines de l'énergie, l'hydrogène, l'automobile, l'aéronautique et l'espace. Une bonne partie doit financer la recherche dans ces domaines. Et le SGPI doit donc évaluer les projets de recherche pour choisir lesquels pourront obtenir des financements.
Dans une interview donnée à l'agence de presse AEF en septembre dernier, évoquant la transformation du SGPI, Bruno Bonnell imaginait pouvoir pré-évaluer les dossiers de recherche et de développement que son administration reçoit grâce à de l'intelligence artificielle : « Dans un monde idéal, et grâce à l’IA et à des algorithmes, nous pourrions par exemple imaginer presque donner une première réponse immédiate aux porteurs. C’est pourquoi nous étudions les systèmes automatisés qui font de la recherche comparative en ligne en temps réel. Je suis certain que cela peut constituer une aide à la décision pour nos jurys ».
Si les IA savent générer du baratin, elles ne savent actuellement pas évaluer le texte d'une présentation d'un projet de recherche. L'utilisation de ce genre de mécanisme de pré-sélection automatique aura donc besoin d'utiliser des critères quantitatifs d'évaluation des candidats.
Et c'est ce que questionne le sénateur Pierre Ouzoulias. Dans une question écrite à la Première Ministre, Elisabeth Borne, dont dépend directement le SGPI. Il s'appuie sur des conclusions du Conseil de l'Union européenne pour remettre en cause l'utilisation d'indicateurs quantitatifs peu parlants sur la réelle qualité du travail des chercheurs pour choisir les projets qui seront financés.
Évaluation quantitative ou qualitative ?
Dans sa question, Pierre Ouzoulias explique que « le Conseil de l’Union européenne a adopté, le 10 juin 2022, des conclusions (n° 10126/22) sur l’évaluation de la recherche et la mise en œuvre de la science ouverte par lesquelles il reconnaît que "les systèmes d’évaluation de la recherche sont actuellement […] trop axés sur l’utilisation de certains indicateurs quantitatifs fondés sur des revues et des publications et sur l’évaluation d’un éventail restreint de résultats de recherche" et suggère une évolution des systèmes d’évaluation de la recherche fondée sur des critères qualitatifs ».
Le sénateur insiste aussi sur le fait que le Haut conseil de l’évaluation de la recherche et de l’enseignement supérieur a signé fin 2021, comme l'ont fait 58 institutions de recherche françaises avant lui, la Déclaration de San Francisco sur l’évaluation de la recherche (Declaration on Research Assessment en anglais, DORA). Celle-ci recommande aux agences de financement de :
- « Indiquer explicitement les critères utilisés pour évaluer la productivité scientifique des porteurs de projet et souligner clairement, surtout pour les chercheurs débutants, que le contenu scientifique d’un article est beaucoup plus important que les indicateurs de publication ou l’image de marque de la revue dans laquelle il a été publié.
- Aux fins de l’évaluation de la recherche, tenir compte de la valeur et de l’impact de tous les résultats de travaux de recherche (y compris les jeux de données et les logiciels) en plus des publications scientifiques, et envisager un large éventail de mesures d’impact, y compris des indicateurs qualitatifs sur les retombées des travaux, comme leur influence sur les politiques et les pratiques. »
Du quantitatif seul caché derrière une adhésion à DORA ?
Dans sa réponse, la Première Ministre affirme que le SGPI « a fait le choix d’un référentiel d’évaluation des projets de recherche multicritères, portant sur l’ensemble des dimensions clés des activités de recherche, et en accordant, comme l’y encourage la déclaration de DORA, une place significative à l’évaluation qualitative articulée à une utilisation responsable d’indicateurs bibliométrique ».
Mais quand il s'agit de lister ces multicritères aux côtés des indicateurs bibliométriques comme le H index (indice de quantification de la productivité scientifique basé sur le nombre de citations des publications du chercheur, NDLR), aucune évaluation qualitative des articles scientifiques n'est citée. Seuls le sont des critères socio-économiques comme les brevets déposés, « l'intensité partenariale dans les collaborations nouées par les structures de recherche avec des écosystèmes », les retombées territoriales et, comme un cheveu sur la soupe, le nombre de frais de publication des articles en accès ouverts (Article processing charges, APC, en anglais).
La pré-évaluation automatique des dossiers poussée par Bruno Bonnell semble bien se baser essentiellement sur des critères quantitatifs plutôt que qualitatifs, en contradiction avec les signatures de la DORA.
Un buzzword cachant le concret
Interrogé par la newsletter spécialisée The Meta News, Bruno Bonnell évoque une expérimentation comparant l'évaluation par des jurys et par des algorithmes pour trancher la question. Et quand la newsletter lui pose la question « Concrètement, qu’allez-vous mettre en place, en ce cas ? », le secrétaire général pour l’investissement répond :
« Quand on voit ce que permet l’IA génératrice, il serait dommage de ne pas se poser la question. Je ne veux simplement pas exclure de bonnes idées à cause de biais cognitifs qu’auraient les jurys et pas non plus automatiser de manière déshumanisée la sélection. »
S'il est difficile de comprendre de cette réponse ce que le SGPI va mettre en place concrètement, l'évocation du buzzword « IA génératrice » (appellation des intelligences artificielles comme ChatGPT ou Dall-E utilisant les grands modèles de langage et générant des textes, des images ou du code), ne dirige pas cette pré-évaluation vers des critères qualitatifs.