Grand débat : un député réclame la transparence sur les logiciels de traitement des contributions

Qui veut Peu

Alors que le gouvernement s’est résolu à publier les contributions issues du « grand débat national » en Open Data, le député Stéphane Peu réclame désormais que le code source des logiciels utilisés pour analyser ces données soit lui aussi ouvert.

Voilà maintenant près d’un mois et demi que les Français peuvent déposer leurs propositions sur le site « grandébat.fr ». Fiscalité, citoyenneté, organisation de l’État, transition écologique... Les thèmes de discussion de manquent pas. Tant est si bien que plus de 360 000 contributions ont été déposées, à quasiment une semaine de la fin de cette grande consultation.

Après une vague de flottement, l’exécutif a accepté le mois dernier de diffuser l’ensemble des données remontant dans le cadre du « grand débat », dans un format compatible avec les standards de l’Open Data : propositions déposées sur Internet ou transmises par voie postale, restitutions de réunions locales, réponses aux questionnaires, cahiers ouverts dans les mairies, etc.

Tous ces éléments ont vocation à être « progressivement et régulièrement mis en ligne sous licence libre ». On en retrouve d’ailleurs certains sur la plateforme du « grand débat » (voir ici) et sur le portail « data.gouv.fr ».

Le gouvernement invité à prendre des « précautions »

Au travers d’une question écrite parue mardi 5 mars au Journal officiel, le député Stéphane Peu a toutefois interpelé le Premier ministre sur « les conditions de transparence de l'analyse » des données collectées lors du « grand débat ». Si l’élu communiste juge « assez compréhensible » que les pouvoirs publics envisagent de traiter ces centaines de milliers de contributions par le biais de programmes informatiques, il prévient néanmoins qu'une telle démarche « devrait conduire à prendre quelques précautions ».

« Confier l'intelligence collective des Françaises et des Français à l'intelligence artificielle des ordinateurs et des logiciels suppose que l'ensemble des citoyennes et citoyens puisse comprendre et apprécier la nature et la forme des traitements que leurs données auront subis, fait valoir le parlementaire. En d'autres termes, puisqu'en informatique, comme en matière de vie démocratique, « le code fait loi », son expression se doit d'être intelligible et transparente. »

Stéphane Peu plaide ainsi pour que le code source des logiciels utilisés pour analyser les contributions du « grand débat » soit ouvert, ce qui permettrait d’en auditer le contenu (et s’assurer par exemple qu’il n’y a pas de biais). L’élu invite en ce sens Édouard Philippe à lui présenter les « garanties » qu’il compte produire « pour que cette indispensable transparence puisse être garantie dans les faits, et que chaque citoyen puisse en vérifier le fonctionnement ».

Une analyse des contributions confiée à une société spécialisée dans le big data

Lors du Conseil des ministres du 13 février dernier, le gouvernement a annoncé que l’institut de sondage OpinionWay avait été retenu pour procéder à l’exploitation « quantitative et qualitative » des contributions déposées sur le site du « grand débat ».

Cette société fait cependant appel à un autre prestataire, Qwam, « pour le traitement des verbatim issus des posts « autres réponses » et des questions ouvertes, qui représentent une masse de données textuelles considérable ».

L’entreprise dispose en effet d’un « outil d’analyse automatique des données textuelles en masse », dénommé Texts analytics. Ce dernier repose sur des technologies de « traitement automatique du langage naturel couplées à des techniques d’intelligence artificielle (apprentissage profond/deep learning) ». D’après Qwam, cette solution logicielle est capable de parcourir de très nombreux textes, mais uniquement « pour en tirer les caractéristiques essentielles (méta-données), des indicateurs clés, des tendances ou des signaux faibles ».

Dans le détail, OpinionWay explique que « les notions citées par les répondants sont relevées, analysées, triées et classées en différentes catégories et sous-catégories » grâce à des « algorithmes puissants ». Chaque verbatim est alors associé à l’une de ces étiquettes, ce qui est censé permettre « une exploitation quantitative des déclarations spontanées des répondants, qui seront ensuite présentées sous forme de pourcentages ».

Le recours à ce type d’outil est toutefois loin de susciter l’unanimité. « Le traitement par mot-clé n’est pas suffisant pour gérer ces textes, au mieux cela peut aider à identifier des thèmes, mais c’est du bluff, on balance ces mots magiques et techniques, mais en réalité, ils auront un mal fou à traiter toutes les contributions, et elles passeront à la trappe », a par exemple fait valoir Fabrice Epelboin, enseignant à Sciences Po Paris, auprès de 20 Minutes.

« L’intelligence artificielle ne peut pas saisir toute la richesse des contributions, car elle va passer à côté du style, de l’humour, ou des contributions analysées comme hors sujet », l’a rejoint une data-scientist citée par nos confrères.

OpnionWay assure néanmoins qu’il y a « systématique[ment] » une « intervention humaine », afin de « contrôler la cohérence des résultats et s’assurer de la pertinence des données produites et de la bonne compréhension du sens des propos des participants au débat ».

Opacité sur le code source du logiciel de consultation

Le gouvernement demandera-t-il pour autant à Qwam de rendre public le code source de son outil Text Analytics ? Rien n’est moins sûr. En dépit des demandes de différentes associations, ni l’exécutif ni les garants du « grand débat » (parmi lesquels figure Isabelle Falque-Pierrotin, l’ancienne présidente de la CNIL) n’ont jugé opportun d’exiger la transparence sur la plateforme qui recueille aujourd’hui les contributions des Français.

Sans logiciel libre, une consultation en ligne ne peut être considéré comme structurellement démocratique.
C'est comme si l'accès au réglement intérieur des Assemblée était impossible. Qui décide l'ordre du jour, comment sont nommés les commissions, etc. #CodeisLaw https://t.co/79Vq6lUaJl

— Etienne Gonnu (@etiennegonnu) 17 janvier 2019

Le service presse du « grand débat » nous avait d’ailleurs confirmé le 12 février dernier que le code source de la plateforme gérée par la société Cap collectif ne serait « pas rendu public », « par souci de protection de l’activité du prestataire ». Une pilule qui s’avère d’autant plus difficile à avaler pour certains qu’Emmanuel Macron avait promis que cette consultation serait « encadrée par toutes les garanties de loyauté et de transparence ».

Contactée, la société Qwam n'a souhaité faire aucun commentaire.

En attendant le retour de l’exécutif (qui dispose théoriquement d’un délai de deux mois pour répondre à la question écrite de Stéphane Peu), signalons l’initiative « La grande annotation », qui propose aux volontaires d’analyser par eux-mêmes certaines contributions issues du « grand débat ». Se disant « convaincus que les citoyens peuvent collectivement réaliser une synthèse de ce débat en adoptant une démarche transparente et ouverte », ce collectif a développé une plateforme collaborative destinée à trier, humainement, les contributions des Français.

Le collectif estime que si 5 000 personnes consacraient 5 à 10 minutes par jour à ce projet, toutes les contributions du « grand débat » pourraient être annotées en 20 jours. Le code source de cette plateforme, soutenue notamment par l’association Code for France, est quant à lui ouvert.

Commentaires (37)

fred42 Abonné

Le 07/03/2019 à 11h 31

Cela ne m’étonne pas qu’un communiste fasse fi de la propriété intellectuelle et demande la publication du savoir faire de société privées.

dylem29 Abonné

Le 07/03/2019 à 11h 41

Peut-être changer de presta du coup. " />

ColinMaudry

Le 07/03/2019 à 11h 42

Le lien vers la grande annotation :https://grandeannotation.fr/. Rejoignez-nous !

Ce serait bien de le mettre dans l’article " />

Le 07/03/2019 à 11h 44

Tu penses trouver un presta qui aurait déjà un soft opensource opérationnel ou tu veux faire développer un tel soft opensource et avoir les résultats en 2022 ?

Le 07/03/2019 à 11h 47

J’imagine qu’il y a la possibilité d’utiliser du libre.

Ou alors, si c’est impossible, tu ne dis pas que la consultation sera « encadrée par toutes les garanties de loyauté et de transparence » si tu n’es pas capable de le faire.

Le 07/03/2019 à 11h 54

Je ne comprends pas l’intérêt de ce projet. Catégoriser une contribution par des mots ou expressions (tel que je comprends ce qui est proposé)est très différent d’extraire le contenu et d’en tenir compte. Ça me semble très réducteur.

Peux-tu m’expliquer à quoi ça peut servir pour ensuite savoir ce qu’ont proposé ou exprimé les participants au grand débat ?

Patch Abonné

Le 07/03/2019 à 12h 36

ColinMaudry a écrit :

Le lien vers la grande annotation :https://grandeannotation.fr/. Rejoignez-nous !

Ce serait bien de le mettre dans l’article " />

Je ne suis pas sûr que son efficacité réelle soit plus grande que celle du grand monologue national présidentiel…

Yno

Le 07/03/2019 à 13h 12

fred42 a écrit :

Cela ne m’étonne pas qu’un communiste fasse fi de la propriété intellectuelle et demande la publication du savoir faire de société privées.

C’est en effet peu étonnant qu’un député communiste soit attentif à la façon dont sont traitées les données des citoyens. Les libéraux haïssent la démocratie.

La proposition rappelle des exigences de transparence méthodologie évidentes… Il semble assez aisé de faire ressortir une forte envie de “libérer l’économie”, et de “dégraisser le mammouth” à partir de mots clés si la façon de traiter les données n’est pas expliquée. Taille des échantillons, différenciation de l’émetteur de la proposition (lobbying?), il y a tellement de points essentiels à la tenue d’un débat démocratique.

Tandhruil

Le 07/03/2019 à 13h 18

A mon avis il est inutile de demander de la transparence, de toute façon les conclusions sont déjà écrites, dixit notre premier ministre :

“Le risque déceptif est important… Il faut préparer nos concitoyens à ce que les propositions à la sortie ne soient pas les réponses à toutes les remontées des débats”

Le 07/03/2019 à 13h 22

#10

D’ailleurs on peut citer aussi :

“Nous ne reviendrons pas sur les mesures que nous avons prises pour corriger cela afin d’encourager l’investissement et faire en sorte que le travail paie d’avantage”

Une telle mise en garde idéologique laisse peu de place au changement de cap, comme on dit…

Le 07/03/2019 à 14h 11

#11

Merci de ne pas changer de sujet. Ce député est pour le vol du savoir faire de sociétés privées.

Le 07/03/2019 à 14h 48

#12

Yno a écrit :

D’ailleurs on peut citer aussi :

“Nous ne reviendrons pas sur les mesures que nous avons prises pour corriger cela afin d’encourager l’investissement et faire en sorte que le travail paie d’avantage”

Une telle mise en garde idéologique laisse peu de place au changement de cap, comme on dit…

A ce niveau ce n’est plus de la mise en garde, c’est du fanatisme. C’est d’ailleurs pour ca que le grand monologue national présidentiel est voué à l’échec depuis le moment de son annonce.

Cumbalero

Le 07/03/2019 à 15h 00

#13

Tu vas me dire que je suis un bouffeur d’enfant si je dis que je considère que la transparence est fondamentale en démocratie?

Les enjeux ne sont pas les mêmes que pour le vote, mais il s’agit d’une consultation du peuple par l’État et il faudrait une confiance aveugle dans des entreprises privées dans son processus?

Quant au qualificatif de vol… Oui, si on se réfère aux textes en vigueur. On a le droit d’être en désaccord, il a le droit de la manifester. Il me semble qu’il est tout à fait dans son rôle de parlementaire. Il y avait une autre solution que demander le code source utilisé par le prestataire du prestataire de l’État, c’était sélectionner ces prestataires dès le début.

lanoux Abonné

Le 07/03/2019 à 15h 23

#14

Cumbalero a écrit :

Tu vas me dire que je suis un bouffeur d’enfant si je dis que je considère que la transparence est fondamentale en démocratie?

Les enjeux ne sont pas les mêmes que pour le vote, mais il s’agit d’une consultation du peuple par l’État et il faudrait une confiance aveugle dans des entreprises privées dans son processus?

Quant au qualificatif de vol… Oui, si on se réfère aux textes en vigueur. On a le droit d’être en désaccord, il a le droit de la manifester. Il me semble qu’il est tout à fait dans son rôle de parlementaire. Il y avait une autre solution que demander le code source utilisé par le prestataire du prestataire de l’État, c’était sélectionner ces prestataires dès le début.

Tu veux dire que notre gouvernement aurait pu choisir un truc transparent depuis le début??? Mais tu es un grand malade ;)

vizir67 Abonné

Le 07/03/2019 à 16h 27

#15

Il y avait une autre solution..c’était sélectionner ces prestataires dès le début……….

" />

Ricard

Le 07/03/2019 à 17h 18

#16

fred42 a écrit :

Merci de ne pas changer de sujet. Ce député est pour le vol du savoir faire de sociétés privées.

lol.

Le 07/03/2019 à 18h 34

#17

Bon, fin de mon gentil " />.

Soyons sérieux et allons voir sur le site de la société sur quelles technologies repose leur solution.

On y parle d’IA par machine learning.

Je suis assez ignare sur le sujet et je ne suis pas capable de savoir si cela peut apporter des résultats probants, mais je sais que l’on ne peut pas fournir le “code source” d’une telle solution qui fonctionne par apprentissage.

On y voit aussi qu’ils travaillent avec des labo du CNRS, le LIP6 et d’autres partenaires.

J’ai l’impression que peu de personnes sont capables de comprendre comment ça fonctionne et de vérifier si les résultats sont probants. À lire l’article, certains spécialistes sont sceptiques sur la solution.

Par contre, comme on a les données d’entrées, (qui sont en open data) il est possible de vérifier par échantillonnage si les résultats sont conformes avec une analyse humaine. Il serait donc plus intéressant de demander des jeux de données réduites et les résultats qui en sont sortis.

On peut aussi refuser que l’on utilise de tels outils et faire analyser tout cela par des armées d’humains. Je n’ai aucune idée de ce qui donnerait le meilleur résultat dans un temps raisonnable.

Le 07/03/2019 à 20h 18

#18

vu les enjeux, une armée d’humain

on en a été capable il y a plus de 200ans, on peut recommencer en faisant mieux et plus rapidement………et GRATUITEMENT

carbier Abonné

Le 07/03/2019 à 20h 52

#19

Yno a écrit :

C’est en effet peu étonnant qu’un député communiste soit attentif à la façon dont sont traitées les données des citoyens. Les libéraux haïssent la démocratie.

Avec le recul, quand on voit ce que les républiques communistes démocratiques ont donné, cette affirmation est assez savoureuse.

Yno a écrit :

La proposition rappelle des exigences de transparence méthodologie évidentes… Il semble assez aisé de faire ressortir une forte envie de “libérer l’économie”, et de “dégraisser le mammouth” à partir de mots clés si la façon de traiter les données n’est pas expliquée. Taille des échantillons, différenciation de l’émetteur de la proposition (lobbying?), il y a tellement de points essentiels à la tenue d’un débat démocratique.

Le seul moyen d’avoir un débat réellement démocratique serait de faire des échantillons à partir de données réelles des citoyens: c’est à dire sans anonymat (pour ne pas flooder par exemple).

Mais de cela il n’est pas question car le sujet est sensible (anonymat) donc dans tous les cas ce débat n’est pas réellement démocratique qu’il y ait code open source ou pas.

Et pour finir, encore une fois, le fait d’avoir un code open source ne garantit absolument pas que la plateforme ne soit pas corrompue (volontairement ou non) à un moment ou à un autre.

SebGF Abonné

Le 07/03/2019 à 21h 09

#20

J’ai souvenir d’une interview d’un représentant du prestataire sélectionné qui expliquait le principe de tri appliqué.

Pour résumer, l’outil a pour objectif de faire ressortir les résultats en regroupant de manière macro les réponses exprimées selon l’analyse de mots clés et compagnie.

Ensuite, ce sont des opérateurs humains qui se chargent de finaliser le traitement des données rassemblées par le logiciel.

Ce qui concorde avec les citations de l’article.

Après, d’une expérience personnelle, les outils d’analyse de données de ce genre sont plutôt impressionnants au niveau des résultats. A voir à une échelle aussi élevée.

Le 07/03/2019 à 21h 33

#21

SebGF a écrit :

J’ai souvenir d’une interview d’un représentant du prestataire sélectionné qui expliquait le principe de tri appliqué.

Pour résumer, l’outil a pour objectif de faire ressortir les résultats en regroupant de manière macro les réponses exprimées selon l’analyse de mots clés et compagnie.

Ensuite, ce sont des opérateurs humains qui se chargent de finaliser le traitement des données rassemblées par le logiciel.

Après, d’une expérience personnelle, les outils d’analyse de données de ce genre sont plutôt impressionnants au niveau des résultats. A voir à une échelle aussi élevée.

Donc , open-source ou pas, à un moment il y a un choix fait par des humains - qui ont des consigne, et qui peuvent , ou pas, s’y conformer - et ce choix modifie le résultat présenté aux gens.

A partir de là , code source ou pas code source, je vois pas trop les garanties apportées par la “transparence” - sans compter , comme le dis carbier, qu’a moins que le logiciels soit spécifiquement conçu pour faire des builds reproductibles (bon courage), il est quasi-impossible d’être sur que le code source donné est celui (et UNIQUEMENT celui) qui a servi à produire le binaire actuellement en production.  A partir de là, la suspicion pouvant toujours être présente, l’intérêt du code source me parait très limité.

C’est comme si on obligeait Enedis à fournir le code source des puces du linky , sans filer la clé privée qui permet de mettre à jour le firmware sur les compteurs du parc, ça ne donnerais strictement aucune garantie à qui que ce soit.

 

Le 08/03/2019 à 06h 21

#22

Faut ouvrir le code source de l’humain " />

Le 08/03/2019 à 14h 56

#23

Il y a par exemple une question qui demande (grosso modo) : “si vous deviez payer plus d’import, à quel domaine souhaiteriez vous que cet argent soit investi ?”

Imaginons qu’il faille annoter la réponse suivante : “Donner encore plus de thunes aux entreprises et au secteur pharmaceutique… Nan je rigole ! Éducation, solidarité, écologie : c’est la priorité !”.

Un système d’analyse de texte se ferait sûrement avoir et ne relèverait pas l’ironie de la première phrase. Un humain de la Grandeannotation indiquera que cette réponse prône l’affectation d’éventuels impots supplémentaires pour “éducation”, “écologie” et “solidarité”.

Chaque réponse à cette question est ainsi tagguée (enfin, ça avance), de façon à ce que l’on sache quels domaines sont importants pour les répondants à cette question.

Est-ce clair ?

eliumnick

Le 08/03/2019 à 15h 14

#24

OB a écrit :

…sans compter , comme le dis carbier, qu’a moins que le logiciels soit spécifiquement conçu pour faire des builds reproductibles (bon courage)…

Pourquoi ce “bon courage” ? Et comment faire un logiciel qui donne des builds différents involontairement ?

Le 08/03/2019 à 15h 19

#25

J’ai vu l’exemple que tu cites sur le site, mais pas les tags “éducation”, “écologie” et “solidarité”, ni même impôts.

Si le choix de tags est ouvert, c’est-à-dire que tout le monde peut en ajouter, ça risque d’être le bordel.

À la limite, pour les réponses aux question, ça peut marcher, mais pour les propositions libre, ça risque d’être compliqué de se limiter à des tags.

Par exemple, si je propose de : supprimer complètement la TVA qui est un impôt injuste et de compenser avec un impôt sur le revenu payé par tous de façon à ce que tout le monde paye, mais que les plus pauvres payent moins en IR que ce qu’ils payaient en TVA afin que leur pouvoir d’achat augmente et avec en plus un revenu universel versé à tous avec là encore l’impôt sur le revenu qui récupère progressivement une partie de ce revenu universel jusqu’à 100 % pour tous ceux qui n’en ont pas besoin.

Ça me ferait mal qu’une proposition comme celle-ci soit résumée par des tags. Cela supprimerait toute la puissance de la proposition qui est en même temps concise .

Je ne suis pas sûr qu’une IA fasse mieux.

Le 08/03/2019 à 17h 52

#26

eliumnick a écrit :

Pourquoi ce “bon courage” ? Et comment faire un logiciel qui donne des builds différents involontairement ?

Faudrait que je demande à un éditeur avec qui j’ai déjà bossé, sur trois livraisons de la même version on arrivait à avoir trois comportements différents. " />

Le 08/03/2019 à 22h 54

#27

eliumnick a écrit :

Pourquoi ce “bon courage” ? Et comment faire un logiciel qui donne des builds différents involontairement ?

C’est un domaine de recherche à part entière.

https://reproducible-builds.org/

Aujourd’hui sans précautions spécifiques, avec n’importe quel compilateur, si tu compile 2 fois d’affilé le même source, t’aura pas 2 fois exactement le même binaire (avec la même somme de contrôle) à la fin : Il y a toujours des infos de débuggage qui trainent, des champs avec des timestamp, un ordre d’assemblage des fichiers compilés différent, et même parfois une certaine dose d’aléa introduit sciemment (pense ASR).

Pire encore (vraiment pire) si ce n’est pas la _même_ machine qui compile, avec le même compilateur.

=> Dit autrement, si par exemple un audit indépendant permet de “certifier” tel code source , avec telle version / hash de binaire produit, il est extrêmement compliqué de recréer ledit binaire avec ledit hash chez toi.

Du coup, impossible d’être 100% sur que le binaire qu’on t’a filé (et dont tu as le hash) est exactement issue des mêmes sources que celle que tu as , qui sont certifiées.

On parle de ce problème, mais dans l’aéronautique , le spatial et plus généralement dans tout le domaine de la safety ce genre de souci est absolument critique.

 

JoePike

Le 09/03/2019 à 10h 50

#28

OB a écrit :

………………..

Pire encore (vraiment pire) si ce n’est pas la _même_ machine qui compile, avec le même compilateur.

…………….

Euh … pourquoi pire ?

Heureusement qu’un bon compilateur tient compte du type de hardware sur lequel le code va tourner

Le hardware au fil du temps améliore certaines instructions ( parfois grace au microcode parfois grace au hardware lui même )

Je suis issu du mainframe ( je sais c’est vieux) mais un mainframe genre z14 aura certaines instructions qui tourneront 5 ou 10 fois plus vite que la même instruction sur un modèle d’il y a 5 ans.

et cette augmentation de vitesse n’a rien à voir avec la vitesse des composants mais avec ue nouvelle architecture de l’instruction( genre utilisation cache , pipeline etc … )

Disons que je trouve ça tout à fait logique, et ça existe depuis 50 ans " />

Le 09/03/2019 à 13h 41

#29

SebGF a écrit :

Faudrait que je demande à un éditeur avec qui j’ai déjà bossé, sur trois livraisons de la même version on arrivait à avoir trois comportements différents. " />

OB a écrit :

C’est un domaine de recherche à part entière.

https://reproducible-builds.org/

Aujourd’hui sans précautions spécifiques, avec n’importe quel compilateur, si tu compile 2 fois d’affilé le même source, t’aura pas 2 fois exactement le même binaire (avec la même somme de contrôle) à la fin : Il y a toujours des infos de débuggage qui trainent, des champs avec des timestamp, un ordre d’assemblage des fichiers compilés différent, et même parfois une certaine dose d’aléa introduit sciemment (pense ASR).

Pire encore (vraiment pire) si ce n’est pas la _même_ machine qui compile, avec le même compilateur.

=> Dit autrement, si par exemple un audit indépendant permet de “certifier” tel code source , avec telle version / hash de binaire produit, il est extrêmement compliqué de recréer ledit binaire avec ledit hash chez toi.

Du coup, impossible d’être 100% sur que le binaire qu’on t’a filé (et dont tu as le hash) est exactement issue des mêmes sources que celle que tu as , qui sont certifiées.

On parle de ce problème, mais dans l’aéronautique , le spatial et plus généralement dans tout le domaine de la safety ce genre de souci est absolument critique.

Et bah, heureusement que vous bossez pas dans l’informatique (enfin je suppose ^^), pake avec la ou j’ai bossé on a toujours eu des builds reproductibles, et sans rien faire de spécial…

Le 09/03/2019 à 13h 58

#30

Pourtant, OB a donné de bonnes raisons pour avoir des binaires différents (même si le code exécuté pourra être le même) et surtout un lien expliquant le problème.

OB a écrit :

C’est un domaine de recherche à part entière.

https://reproducible-builds.org/

Aujourd’hui sans précautions spécifiques, avec n’importe quel compilateur, si tu compile 2 fois d’affilé le même source, t’aura pas 2 fois exactement le même binaire (avec la même somme de contrôle) à la fin : Il y a toujours des infos de débuggage qui trainent, des champs avec des timestamp, un ordre d’assemblage des fichiers compilés différent, et même parfois une certaine dose d’aléa introduit sciemment (pense ASR).

Seul l’ordre d’assemblage des fichiers peut être maîtrisé, pas les autres points.

Mais tu as raison d’être méprisant et de ne pas te remette en question. J’espère que tu bosses dans un domaine où tes erreurs n’ont que peu d’importance.

J’ai déjà été confronté au problème des timestamps au niveau professionnel et la solution que l’on avait mise en place à l’époque était comme indiqué sur le site en lien de post-processer les objets pour avoir toujours le même timestamp.

Le 09/03/2019 à 14h 13

#31

fred42 a écrit :

Pourtant, OB a donné de bonnes raisons pour avoir des binaires différents (même si le code exécuté pourra être le même) et surtout un lien expliquant le problème.

Seul l’ordre d’assemblage des fichiers peut être maîtrisé, pas les autres points.

Mais tu as raison d’être méprisant et de ne pas te remette en question. J’espère que tu bosses dans un domaine où tes erreurs n’ont que peu d’importance.

J’ai déjà été confronté au problème des timestamps au niveau professionnel et la solution que l’on avait mise en place à l’époque était comme indiqué sur le site en lien de post-processer les objets pour avoir toujours le même timestamp.

Je n’ai fait que faire comme vous : partir du principe que j’ai forcément raison et que ceux qui ont un avis différent doivent être méprisé.

Mais si vous voulez avoir un discours un peu plus cohérent, précisez de quel langage vous parlez.

Dans mon cas c’était du JAVA, et en toute bonne foi, je ne vois pas comment avoir des builds différents involontairement en JAVA.

Le 09/03/2019 à 14h 21

#32

eliumnick a écrit :

Et bah, heureusement que vous bossez pas dans l’informatique (enfin je suppose ^^), pake avec la ou j’ai bossé on a toujours eu des builds reproductibles, et sans rien faire de spécial…

En fait à une époque je pensais bosser dans l’informatique, mais en fait avec le recul je dirais plutôt que je travaille dans un cirque vu tous les clowns qu’on croise et le jonglage qu’on doit faire. " />

Le 09/03/2019 à 14h 26

#33

SebGF a écrit :

En fait à une époque je pensais bosser dans l’informatique, mais en fait avec le recul je dirais plutôt que je travaille dans un cirque vu tous les clowns qu’on croise et le jonglage qu’on doit faire. " />

Je ne peu qu’approuver ton message " />

Le 10/03/2019 à 08h 21

#34

eliumnick a écrit :

Et bah, heureusement que vous bossez pas dans l’informatique (enfin je suppose ^^), pake avec la ou j’ai bossé on a toujours eu des builds reproductibles, et sans rien faire de spécial…

Moi je travaille dans le développement informatique embarqué , dans des environnements où une machine virtuelle java n’est même pas un commencement de concept possible.

Pour moi le java c’est pas de l’informatique, c’est un langage interprété (comme le python, que j’utilise par ailleurs viahttps://micropython.org/ ).

Et oui, quand il y a de la sûreté en jeu , perso je ne me vois pas utiliser du java & devoir certifier le JRE en plus de mon programme (ceci dit je sais qu’il y a des efforts en ce sens qui existent).

Et oui comme le dit fred42 il y a des étapes de post-processing pour virer ou “standardiser” les éléments variants. Effectivement, le code exécuté est exactement le même.

Après , tout dépends du contexte, dans un même projet certains éléments ont besoin de certification critique et d’autre non.

Parfois, c’est le binaire qui est certifié (par tests), puis signé et la signature vérifiée par le hardware à l’initialisation, ce qui pose d’autres problèmes pour les mises à jour.

Mais tout dépend du type d’attaque envisagé : Une machine a voter / système de traitement des contributions n’a pas les mêmes modèle d’attaques qu’un logiciel de conduite autonome d’un véhicule, ou de gestion de trafic,…

 

Le 10/03/2019 à 08h 43

#35

JoePike a écrit :

Euh … pourquoi pire ?

Heureusement qu’un bon compilateur tient compte du type de hardware sur lequel le code va tourner

Non mais il faut bien préciser ce qu’on veux, là, et ce qu’on cherche à éviter.

Si ta nouvelle instruction introduit un comportement aux limites très légèrement différent d’avant, ben tu peux introduire un bug rien qu’en “améliorant” cette compilation. C’est déjà arrivé,https://fr.wikipedia.org/wiki/Bug_de_la_division_du_Pentium .

Là, on parle de trouver une méthode pour pour qu’un code source donné (éventuellement publiquement) puisse être certifié, puis compilé (toujours de manière certifiable) et exécuté sur une plateforme elle aussi complètement sûre pour que le fonctionnement du logiciel ne puisse pas être altéré par la suite y compris par l’éditeur du logiciel ou quoique ce soit d’autre.

 

On ne peux pas utiliser la méthode de certification du binaire car on ne peux pas créer un testbed qui validerait toutes les entrées possible dans tous les cas possibles.

Autant dire que (pour revenir au sujet de l’article) pour un logiciel développé en code source propriétaire, exécuté sur des machines standard (parfois en VM…) d’un datacenter appartement à une autre société , et dont les entrées sont constituées des requêtes des utilisateurs elles même faites sur des machines sous windows parfois vérolées …. :-/

C’est peine perdu, et donc on est là obligé de s’appuyer sur la “confiance” : Confiance en l’éditeur , en l’hébergeur, dans les FAI , en le système des usagers.

Après, bien sur, la mise en place d’un hack à grande échelle reste complexe et, à mon avis avec des conséquences relativement limités.

C’est pour ça que je prenait l’exemple du linky, un système qui n’est pas “critique” en soit (car ne provoque pas d’accidents en cas  malfonction), mais dont à mon avis il serait essentiel , pour des raisons sociales, que le code source soit ouvert et qu’il soit possible de certifier (donc build reproductible pour recréer le binaire identique) et qu’il est impossible de charger un logiciel non certifié dans les compteurs. A ma connaissance , actuellement rien de tout cela n’est fait.

 

Le 10/03/2019 à 13h 58

#36

OB a écrit :

Moi je travaille dans le développement informatique embarqué , dans des environnements où une machine virtuelle java n’est même pas un commencement de concept possible.

Pour moi le java c’est pas de l’informatique, c’est un langage interprété (comme le python, que j’utilise par ailleurs viahttps://micropython.org/ ).

Et oui, quand il y a de la sûreté en jeu , perso je ne me vois pas utiliser du java & devoir certifier le JRE en plus de mon programme (ceci dit je sais qu’il y a des efforts en ce sens qui existent).

Et oui comme le dit fred42 il y a des étapes de post-processing pour virer ou “standardiser” les éléments variants. Effectivement, le code exécuté est exactement le même.

Après , tout dépends du contexte, dans un même projet certains éléments ont besoin de certification critique et d’autre non.

Parfois, c’est le binaire qui est certifié (par tests), puis signé et la signature vérifiée par le hardware à l’initialisation, ce qui pose d’autres problèmes pour les mises à jour.

Mais tout dépend du type d’attaque envisagé : Une machine a voter / système de traitement des contributions n’a pas les mêmes modèle d’attaques qu’un logiciel de conduite autonome d’un véhicule, ou de gestion de trafic,…

Et oui toute généralisation est erronée ^^ Donc maintenant tu peux le dire : avec certains langages il est difficile d’avoir des builds reproductibles, et avec d’autres c’est facile.

Et si JAVA c’est pas de l’informatique c’est quoi alors ? :x

Le 11/03/2019 à 09h 26

#37

il faut avoir taggé un certain nombre de contributions pour pouvoir proposer des nouveaux tags
- de ce que j’ai vu, ce n’était mis en place que sur des questions assez fermées. Comme la question cadre le sujet, pas besoin du tag “impots”, et les tags permettent d’annoter les postes de dépenses pour lesquels le ou la citoyenne accepterait de payer plus d’impôts

Grand débat : un député réclame la transparence sur les logiciels de traitement des contributions

Qui veut Peu

Le gouvernement invité à prendre des « précautions »

Une analyse des contributions confiée à une société spécialisée dans le big data

Opacité sur le code source du logiciel de consultation

Tiens, en parlant de ça :

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Sommaire de l'article

Introduction

Le gouvernement invité à prendre des « précautions »

Une analyse des contributions confiée à une société spécialisée dans le big data

Opacité sur le code source du logiciel de consultation

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (37)