Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Le « Noël de l’Open Data » selon Regards Citoyens

Avatar de l'auteur
Xavier Berne

Publié dans

Internet

19/12/2013 7 minutes
17

Refonte en règle du portail « data.gouv.fr », nouvelles données à l’appui

Une nouvelle version de la plateforme gouvernementale d’Open Data, « data.gouv.fr », vient d’être mise en ligne par la mission Etalab, qui gère le mouvement d’ouverture des données publiques sous l’autorité du Premier ministre. Un portail qui se veut plus simple, davantage ouvert aux contributions, et surtout plus social. Explications. 

data.gouv.fr

 

Près de deux ans jour pour jour après l’ouverture de « data.gouv.fr » sous l’impulsion du gouvernement Fillon, le Premier ministre socialiste Jean-Marc Ayrault a inauguré hier après-midi la nouvelle version du site d’Open Data national. C’était d’ailleurs l’un des engagements ancrés par l’exécutif dans sa feuille de route en matière d’ouverture des données publiques : la nouvelle version de cette plateforme était censée voir le jour dès cette année. C’est désormais chose faite. Et force est de constater que les changements ne sont pas qu’esthétiques !

 

« Nous nous sommes dit que le prochain site devait résoudre trois problèmes », nous a raconté Henri Verdier, directeur d’Etalab. « D’abord, il fallait que ça prenne une minute à une administration pour poser des données. Jusque-là c’était très lourd, on leur envoyait un cahier des charges, des règles d’indexation, etc. Ensuite, il fallait que l’on puisse trouver une réponse en quelques clics. Et puis il fallait enfin que les administrations trouvent un intérêt à partager les données. » La refonte du site a donc été orientée en fonction de ces trois défis.

Des améliorations destinées tant aux utilisateurs qu'aux contributeurs

Ainsi, l’expérience utilisateur a été profondément remodelée. Recherche plus intuitive, indice de qualité des données, possibilité de de suivre des informations en fonction du producteur (un ministère, une collectivité ou un établissement public en particulier,...), de marquer comme « utile » un jeu de données, de proposer des améliorations ou des réutilisations aux données : nombreuses sont les nouveautés destinées à séduire le public et à « faire vivre » les informations mises en ligne.

 

Autre changement, de taille : data.gouv.fr accueille désormais des données et contributions issues de la société civile en général, et non plus seulement celles libérées par les pouvoirs publics. Les universités, les médias, les associations, les entreprises sont ainsi invitées à participer à la plateforme nationale d’Open Data. Pour éviter les dérives, un bouton de signalement est néanmoins prévu pour avertir les administrateurs du site. Il n’en demeure pas moins que ces informations provenant de nouveaux producteurs deviennent référencées aux côtés des autres jeux de données « officiels », ceux issus de l’administration. L’on peut ainsi retrouver des données proposées par l’association WWF à propos de l’empreinte écologique, ou bien par certains de nos confrères au sujet de la vidéosurveillance par exemple.

 

data.gouv.fr

 

Enfin, c’est un effort de classement qui a été réalisé. Les 350 000 fichiers présents sur l’ancienne version de data.gouv.fr ont en effet été rassemblés en 2 900 séries, qui se veulent plus cohérentes (les chiffres du chômage sont par exemple regroupés, etc.). Aussi, la plateforme n’ayant pas vocation à héberger des données déjà stockées ailleurs (sur le site d’une institution telle que l’INSEE par exemple), la « V2 » de data.gouv.fr renvoie les internautes vers le site sur lequel se trouvent les données en question. Il remplit en ce sens davantage un rôle de moteur de recherche que d'hébergeur.

De nouveaux jeux de données libérés pour l'occasion

Pour l’occasion, de nouveaux jeux de données ont été mis en ligne par Etalab. L’on retrouve par exemple des données concernant :

  • Les comptes des partis et groupements politiques au titre de l’exercice 2011,
  • Les subventions allouées au titre de la réserve parlementaire pour 2011 et 2012,
  • Le fichier des adresses des établissements d’enseignement,
  • La liste des marchés publics conclus de 2008 à 2012,
  • La base de données publiques des médicaments,
  • Les indicateurs de qualité et de sécurité des soins généralisés dans les établissements de santé sur l’activité de médecine, chirurgie, obstétrique et des soins de suite et de réadaptation,
  • Le projet de loi de finances 2014 (détail par Programme et missions, et incluant le jaune relatif aux subventions versées aux associations),
  • Les données relatives à l’annuaire fiscal (impôts locaux et impôt sur le revenu par collectivité, impôt de solidarité sur la fortune par commune de plus de 20 000 habitants, taxe sur la valeur ajoutée en montant et en nombre de cases remplies),
  • Les données d’exécution budgétaire des collectivités territoriales (charges et produits de fonctionnement, dépenses et recettes totales d’investissement),
  • Le fichier FANTOIR répertoriant pour chaque commune le nom des lieux dits et des voies,
  • Le périmètre des interventions économiques analysées dans le cadre de la mission MAP sur les aides aux entreprises,
  • L’aide publique au développement,
  • Les données détaillées de connaissance et de surveillance de la qualité des eaux,
  • Les effectifs étudiants inscrits dans les établissements et les formations de l’enseignement supérieur,
  • Le recensement des licences auprès des fédérations sportives agréées par le ministère en charge des sports,
  • La localisation des sites de fouilles archéologiques de l’INRAP,
  • L’analyse trimestrielle du marché des jeux en ligne en France,
  • La base de données mondiale des plus hauts revenus (École d’Économie de Paris),
  • La base de données OpenStreetMap,
  • Les structures de la Croix Rouge française.

Un site développé sur un noyau open source

« On est le premier pays au monde à ouvrir un portail d’Open Data véritablement social, où les gens peuvent venir et enrichir les données et même, avec des règles du jeu claires, accueillir aussi des données qui ne viennent pas de l’État » se félicite aujourd’hui Henri Verdier. Le numéro un d’Etalab explique avoir tenté d’imprimer une nouvelle stratégie, afin « d’utiliser la technologie pour pousser les gens à partager les données, et faire en sorte que ça ait du sens pour eux ».

 

Pour preuve de ce tournant, le nouveau site a été réalisé par des entrepreneurs embauchés en CDD, dans l'esprit des « corporate start-ups » séduisant les grandes structures qui veulent innover. Henri Verdier affirme à cet égard que ces personnes ont ainsi su apporter des « manières d’innover et de coder assez proches du Web ». À noter que la nouvelle plateforme a été développée sur un noyau open source, CKAN, standard bien connu des acteurs de l’Open Data.

 

« C'est décidément Noël ! » a de son côté réagi l’association Regards Citoyens (en lien avec les récentes annonces de Matignon concernant l’Open Data), et qui était d’ailleurs présente pour l’inauguration de la nouvelle plateforme. L’organisation a ainsi applaudi la mise en place de la nouvelle version de data.gouv.fr et de ses conséquences concrètes sur le mouvement d’ouverture des données publiques. « L’arrêt de la course au chiffre ayant incité des administrations à fragmenter leurs données en milliers de fichiers marque un sérieux pas en avant qui permettra enfin de retrouver aisément les données publiées » a ainsi fait valoir l’association dans un communiqué, tout en soulignant que des efforts restaient à faire « en matière de respect des formats ouverts ».

Écrit par Xavier Berne

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Des améliorations destinées tant aux utilisateurs qu'aux contributeurs

De nouveaux jeux de données libérés pour l'occasion

Un site développé sur un noyau open source

Commentaires (17)




« On est le premier pays au monde à ouvrir un portail d’Open Data véritablement social, où les gens peuvent venir et enrichir les données et même, avec des règles du jeu claires, accueillir aussi des données qui ne viennent pas de l’État » se félicite aujourd’hui Henri Verdier.



On a une indication des contrôles effectués pour attester de la véracité des données ajoutées ou “enrichies” ? Ou est-ce qu’on va faire une roulette russe du savoir façon Wikipedia ?


Je pensais que l’open data était quelque peu standardisé et accessible autrement que par telechargement de fichier html ou csv…



Aucune api ? <img data-src=" /> c’est moche…



Open galère data…








caesar a écrit :



Je pensais que l’open data était quelque peu standardisé et accessible autrement que par telechargement de fichier html ou csv…



Aucune api ? <img data-src=" /> c’est moche…



Open galère data…







J’avais même cru voir à une époque des scan alors avant les sorti automatisé on y est pas encore.









knos a écrit :



J’avais même cru voir à une époque des scan alors avant les sorti automatisé on y est pas encore.







Il me semble pas que cela soit compliquer pourtant… je parle pas de centralisation autour d’une BBD commune mais rien que la mise en “services” des données… une petite procédure d’import sql. c’est pas la mer a boire…



Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />



Les gars, soyez un peu réalistes.



Ceux qui font ces données, ce sont des fonctionnaires qui savent à peu près utiliser Word et Excel. L’un est à Lille aux services des naissances, l’autre à Marseille dans les services des transports. N’allez pas leur parler d’uniformisation, de standards et d’API <img data-src=" />

Sérieusement, ce serait un énorme challenge d’avoir dans une base centralisée les horaires de la piscine de Trou-sur-mer, ainsi que les statistiques sur la disparition du lynx dans les Vosges. Allez structurer tout ça de manière universelle…








caesar a écrit :



Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />





C’est pas le but ?



<img data-src=" />









WereWindle a écrit :



On a une indication des contrôles effectués pour attester de la véracité des données ajoutées ou “enrichies” ? Ou est-ce qu’on va faire une roulette russe du savoir façon Wikipedia ?





Ouais. J’ai écouté une interview hier soir du directeur de ce service. En fait (si j’ai bien tout compris) il faut d’abord créer un compte. Ensuite, l’information est vérifiée. Toute tentative de donner une info volontairement falsifiée sera sanctionnée.

J’ai pas été voir encore, mais ça doit bien être expliqué qq part.



Edit : j’ai pas trouvé ça en regardant vite fait, mais j’ai bien entendu parler de sanctions par contre.









AirTé a écrit :



C’est pas le but ?



<img data-src=" />







Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.





« D’abord, il fallait que ça prenne une minute à une administration pour poser des données. Jusque-là c’était très lourd, on leur envoyait un cahier des charges, des règles d’indexation, etc. Ensuite, il fallait que l’on puisse trouver une réponse en quelques clics. Et puis il fallait enfin que les administrations trouvent un intérêt à partager les données. »





Mais lol…




  • 1 minute qu’est ce que c’est lourd…

  • Des cahiers des charges pour… poster du html ?

  • Indexation ? wtf elle est ou ta base de donnée ?









caesar a écrit :



Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.





Le smiley était là pour souligner le troll ;)









caesar a écrit :



Il me semble pas que cela soit compliquer pourtant… je parle pas de centralisation autour d’une BBD commune mais rien que la mise en “services” des données… une petite procédure d’import sql. c’est pas la mer a boire…



Il y a masse de … page html… des données dans des pages html… en fait c’est open “consultation” data …. pour l’exploitation on repasse dans 20 ans ? <img data-src=" />







Je sais pas ce que vous regardez, mais tout ce que je vois est téléchargeable…



http://www.data.gouv.fr/fr/dataset/decoupage-administratif-communal-francais-iss…



http://www.data.gouv.fr/fr/dataset/residences-de-tourisme-classees-en-france-572…



http://www.data.gouv.fr/fr/dataset/subventions-aux-personnes-morales-2001-a-2003…



par exemple…et ces données sont parfaitement exploitables <img data-src=" />



Je vois pas sur quoi vous râlez (encore <img data-src=" />)









DrJackal a écrit :



Je sais pas ce que vous regardez, mais tout ce que je vois est téléchargeable…



http://www.data.gouv.fr/fr/dataset/decoupage-administratif-communal-francais-iss…

=&gt; OpenStreetMap ^^ forcement ca aide a avoir des données exploitable vu que déjà exploitée par de nombreux outils…







http://www.data.gouv.fr/fr/dataset/residences-de-tourisme-classees-en-france-572…

=&gt; données non normées (téléphone), Données non renseignées (colonnes vides)







http://www.data.gouv.fr/fr/dataset/subventions-aux-personnes-morales-2001-a-2003…

=&gt; “exploitable” si on considère qu’il n’y pas l’air d’avoir d’api pour récupérer les données, il faut télécharger un csv



par exemple…et ces données sont parfaitement exploitables <img data-src=" />



Je vois pas sur quoi vous râlez (encore <img data-src=" />)







T’as eu une chance de fou ou t’as pris seulement les 3 bons après une longue recherche ?



http://www.data.gouv.fr/fr/dataset/liste-des-immeubles-proteges-au-titre-des-mon…

csv degeulasse



http://www.insee.fr/fr/bases-de-donnees/default.asp?page=recensements.htm

Exploitation hasardeuse



http://www.data.gouv.fr/fr/dataset/tableau-de-bord-dechets

whoooo du flex ^^’



http://www.data.gouv.fr/fr/dataset/effectifs-d-etudiants-inscrits-dans-les-etabl…

A peu près structuré, demande l’importation des données pour exploitation.



http://www.data.gouv.fr/fr/dataset/beneficiaires-de-la-cmu-par-regions-et-depart…

Un joli site de sélection comme souvent



Pourquoi est ce que open data c’est synonyme d’interface de filtre manuel + export



Je dis pas que c’est nul, je trouve juste que -très- c’est limitatif pour créer des outils qui exploitent ces données (automatiquement à jour -of course-).



avec json ou xml il y a moyen de faire des choses… évolutives et à jour

La, dans l’extrême majorité des “open data” que j’ai pu voir, tu ne peux pas exploiter automatiquement les données, et au moindre changement du format des données….



je dois avoir eu de la chance alors parce que c’était de l’aléatoire total ^^





Sinon, oui je comprends mieux ce que tu voulais dire. Cependant, à leur décharge, ça ne reste qu’un site de référencement. Ils fournissent que ce qu’on leur donne ;)





Pour finir, je sais pas ce que t’entends par “exploiter automatiquement”. Y a des sites comme géobretagne qui proposent de venir se connecter en WFS ou WMS à leurs bases, mais vrai que ça reste rare.








caesar a écrit :



Désolé si pour moi data ça signifie un peu plus que consultation… on est au 21ième siècle il me semble.





Je pense que le portail n’a pas vocation à servir de source de donnée pour des fournisseurs de contenus tiers. Ils les récupèrent et les hébergent eux même s’ils veulent les exploiter. C’est pas vraiment les mêmes normes et couts d’infrastructure pour publier des csv et construire un dépôt type webservice cloud des données publiques (si j’ai bien compris ta remarque initiale).







caesar a écrit :



Mais lol…




  • 1 minute qu’est ce que c’est lourd…

  • Des cahiers des charges pour… poster du html ?

  • Indexation ? wtf elle est ou ta base de donnée ?





    Je pense qu’il imageait en disant 1 minute. Et sinon pas mal de petites structures administratives, type petites mairies etc. n’ont pas de compétences même bureautiques à l’interne donc oui ça doit être super simple.



    Les cahiers des charges ça permet de ne pas avoir n’importe quoi. Si yen a pas le site héberge n’importe quoi les gens râlent. Si yen a c’est trop lent les gens ralent. Et les cahiers des charges ne concernent pas que le format d’export bien entendu. Il y a des notions d’archivistique type dua, anonymisation des données etc.



    L’indexation c’est pas juste sur les données en bases de données… a ton avis que fait google sinon de l’indexation? (au hasard)



    En fait pour moi l’open data français est encore très hautement critiquable, notamment sur la gestion des versions des données, la possibilité de publier des formats inexploitables informatiquement (pdfs, scans) ou non normés de manière identique d’une fois sur l’autre, l’ignorance des formats et normes d’archivistique ISADG etc. mais… pas tellement sur les points que tu cites.



    Edit: j’ai lu ton post suivant, on est d’accord <img data-src=" />



La vache vous n’êtes jamais contents <img data-src=" />



Il vous faut forcément tout, et tout de suite, sinon ça ne va pas et il faut râler. Et encore, je suis sûr que même avec tout cela, vous trouveriez d’autres raisons.








versgui a écrit :



Les gars, soyez un peu réalistes.



Ceux qui font ces données, ce sont des fonctionnaires qui savent à peu près utiliser Word et Excel. L’un est à Lille aux services des naissances, l’autre à Marseille dans les services des transports. N’allez pas leur parler d’uniformisation, de standards et d’API <img data-src=" />

Sérieusement, ce serait un énorme challenge d’avoir dans une base centralisée les horaires de la piscine de Trou-sur-mer, ainsi que les statistiques sur la disparition du lynx dans les Vosges. Allez structurer tout ça de manière universelle…





C’est surtout relativement dangereux je trouve dans la potentialité d’uniformiser les outils de gestion sur le territoire. Dans l’absolu les normes existent (on parle de fantoir dans l’article pour les rues, il y a également les normes postales et de l’insee pour gérer à l’ilot, à l’adresse) il y a des normes de dates, des normes xml d’archivistique, des normes de GED, des normes d’archéologies, des normes du BRGM, des normes pour la secu, pour les échanges d’argent, les déclarations sociales types DADSU etc.



Le jour où tout sera exploitable automatiquement et où la collecte sera temps réelle à l’échelle du territoire on vivra en dictature par contre possiblement.



Vu le niveau d’immaturité concernant le flicage automatique et des politiques et de la population (cf la dernière loi de programmation militaire ou l’usage irréfréné de facebook et google) faut pas trop se plaindre que les données de l’administration Française soient en bordel. C’est facteur de libertés publiques même si ce bordel est la conséquence d’informatisations hasardeuses et pas un choix de société pour empêcher les croisements de fichiers et le flicage temps réel. <img data-src=" />









Jarodd a écrit :



La vache vous n’êtes jamais contents <img data-src=" />



Il vous faut forcément tout, et tout de suite, sinon ça ne va pas et il faut râler. Et encore, je suis sûr que même avec tout cela, vous trouveriez d’autres raisons.









Râler est une tradition môsieur ! Cela fait partie de notre patrimoine !



<img data-src=" />



“Je peux mettre le rapport là sur open data ?




  • Ca te prend combien de temps ?

  • Ben je le télécharge (sic), ca va prendre 10 minutes

  • Ok.”



    vs.



    “Je peux mettre le rapport là sur open data ?

  • Ca te prend combien de temps ?

  • Ben faut que je regarde ce qu’ils veulent comme format parce que c’est un peu chiant, que je retravaille le fichier sous excel, que je corrige le fichier 4 fois si ca passe pas chez eux, ca va prendre 2 jours

  • Tu rigoles là ? T’as autre chose à faire. Oublies”



    C’est simple à comprendre non ?