Grand débat : un député réclame la transparence sur les logiciels de traitement des contributions

Qui veut Peu 37
Accès libre
image dediée
Crédits : Henrik5000/iStock
Loi
Xavier Berne

Alors que le gouvernement s’est résolu à publier les contributions issues du « grand débat national » en Open Data, le député Stéphane Peu réclame désormais que le code source des logiciels utilisés pour analyser ces données soit lui aussi ouvert.

Voilà maintenant près d’un mois et demi que les Français peuvent déposer leurs propositions sur le site « grandébat.fr ». Fiscalité, citoyenneté, organisation de l’État, transition écologique... Les thèmes de discussion de manquent pas. Tant est si bien que plus de 360 000 contributions ont été déposées, à quasiment une semaine de la fin de cette grande consultation.

Après une vague de flottement, l’exécutif a accepté le mois dernier de diffuser l’ensemble des données remontant dans le cadre du « grand débat », dans un format compatible avec les standards de l’Open Data : propositions déposées sur Internet ou transmises par voie postale, restitutions de réunions locales, réponses aux questionnaires, cahiers ouverts dans les mairies, etc.

Tous ces éléments ont vocation à être « progressivement et régulièrement mis en ligne sous licence libre ». On en retrouve d’ailleurs certains sur la plateforme du « grand débat » (voir ici) et sur le portail « data.gouv.fr ».

Le gouvernement invité à prendre des « précautions »

Au travers d’une question écrite parue mardi 5 mars au Journal officiel, le député Stéphane Peu a toutefois interpelé le Premier ministre sur « les conditions de transparence de l'analyse » des données collectées lors du « grand débat ». Si l’élu communiste juge « assez compréhensible » que les pouvoirs publics envisagent de traiter ces centaines de milliers de contributions par le biais de programmes informatiques, il prévient néanmoins qu'une telle démarche « devrait conduire à prendre quelques précautions ».

« Confier l'intelligence collective des Françaises et des Français à l'intelligence artificielle des ordinateurs et des logiciels suppose que l'ensemble des citoyennes et citoyens puisse comprendre et apprécier la nature et la forme des traitements que leurs données auront subis, fait valoir le parlementaire. En d'autres termes, puisqu'en informatique, comme en matière de vie démocratique, « le code fait loi », son expression se doit d'être intelligible et transparente. »  

Stéphane Peu plaide ainsi pour que le code source des logiciels utilisés pour analyser les contributions du « grand débat » soit ouvert, ce qui permettrait d’en auditer le contenu (et s’assurer par exemple qu’il n’y a pas de biais). L’élu invite en ce sens Édouard Philippe à lui présenter les « garanties » qu’il compte produire « pour que cette indispensable transparence puisse être garantie dans les faits, et que chaque citoyen puisse en vérifier le fonctionnement ».

Une analyse des contributions confiée à une société spécialisée dans le big data

Lors du Conseil des ministres du 13 février dernier, le gouvernement a annoncé que l’institut de sondage OpinionWay avait été retenu pour procéder à l’exploitation « quantitative et qualitative » des contributions déposées sur le site du « grand débat ».

Cette société fait cependant appel à un autre prestataire, Qwam, « pour le traitement des verbatim issus des posts « autres réponses » et des questions ouvertes, qui représentent une masse de données textuelles considérable ».

L’entreprise dispose en effet d’un « outil d’analyse automatique des données textuelles en masse », dénommé Texts analytics. Ce dernier repose sur des technologies de « traitement automatique du langage naturel couplées à des techniques d’intelligence artificielle (apprentissage profond/deep learning) ». D’après Qwam, cette solution logicielle est capable de parcourir de très nombreux textes, mais uniquement « pour en tirer les caractéristiques essentielles (méta-données), des indicateurs clés, des tendances ou des signaux faibles ».

Dans le détail, OpinionWay explique que « les notions citées par les répondants sont relevées, analysées, triées et classées en différentes catégories et sous-catégories » grâce à des « algorithmes puissants ». Chaque verbatim est alors associé à l’une de ces étiquettes, ce qui est censé permettre « une exploitation quantitative des déclarations spontanées des répondants, qui seront ensuite présentées sous forme de pourcentages ».

Le recours à ce type d’outil est toutefois loin de susciter l’unanimité. « Le traitement par mot-clé n’est pas suffisant pour gérer ces textes, au mieux cela peut aider à identifier des thèmes, mais c’est du bluff, on balance ces mots magiques et techniques, mais en réalité, ils auront un mal fou à traiter toutes les contributions, et elles passeront à la trappe », a par exemple fait valoir Fabrice Epelboin, enseignant à Sciences Po Paris, auprès de 20 Minutes.

« L’intelligence artificielle ne peut pas saisir toute la richesse des contributions, car elle va passer à côté du style, de l’humour, ou des contributions analysées comme hors sujet », l’a rejoint une data-scientist citée par nos confrères.

OpnionWay assure néanmoins qu’il y a « systématique[ment] » une « intervention humaine », afin de « contrôler la cohérence des résultats et s’assurer de la pertinence des données produites et de la bonne compréhension du sens des propos des participants au débat ».

Opacité sur le code source du logiciel de consultation

Le gouvernement demandera-t-il pour autant à Qwam de rendre public le code source de son outil Text Analytics ? Rien n’est moins sûr. En dépit des demandes de différentes associations, ni l’exécutif ni les garants du « grand débat » (parmi lesquels figure Isabelle Falque-Pierrotin, l’ancienne présidente de la CNIL) n’ont jugé opportun d’exiger la transparence sur la plateforme qui recueille aujourd’hui les contributions des Français.

Le service presse du « grand débat » nous avait d’ailleurs confirmé le 12 février dernier que le code source de la plateforme gérée par la société Cap collectif ne serait « pas rendu public », « par souci de protection de l’activité du prestataire ». Une pilule qui s’avère d’autant plus difficile à avaler pour certains qu’Emmanuel Macron avait promis que cette consultation serait « encadrée par toutes les garanties de loyauté et de transparence ».

Contactée, la société Qwam n'a souhaité faire aucun commentaire.

En attendant le retour de l’exécutif (qui dispose théoriquement d’un délai de deux mois pour répondre à la question écrite de Stéphane Peu), signalons l’initiative « La grande annotation », qui propose aux volontaires d’analyser par eux-mêmes certaines contributions issues du « grand débat ». Se disant « convaincus que les citoyens peuvent collectivement réaliser une synthèse de ce débat en adoptant une démarche transparente et ouverte », ce collectif a développé une plateforme collaborative destinée à trier, humainement, les contributions des Français.

grande annotation débat

Le collectif estime que si 5 000 personnes consacraient 5 à 10 minutes par jour à ce projet, toutes les contributions du « grand débat » pourraient être annotées en 20 jours. Le code source de cette plateforme, soutenue notamment par l’association Code for France, est quant à lui ouvert.


chargement
Chargement des commentaires...