[MàJ] La base Sirene disponible en Open Data

[MàJ] La base Sirene disponible en Open Data

Sirene des neiges

Avatar de l'auteur
Xavier Berne

Publié dans

Droit

05/01/2017 2 minutes
36

[MàJ] La base Sirene disponible en Open Data

Depuis hier, Bercy s’en félicite : l’accès à la célèbre base Sirene sur les entreprises est gratuit. En pratique, il faudra encore attendre un peu avant de voir ces données en Open Data...

« La plus grande base de données sur l'état civil des entreprises françaises est maintenant accessible à tous, sans frais », promet un article publié mardi 3 janvier par le ministère de l’Économie et des finances. En application de l’article 12 de la loi Numérique, la réutilisation des informations produites par l’INSEE ne peut effectivement plus « donner lieu au versement d'une redevance » depuis le 1er janvier.

Si l’ensemble des statistiques de l’établissement public a ainsi vocation à être gratuit, qu’il s’agisse des chiffres relatifs au chômage, à la population, au pouvoir d’achat... la base Sirene reste pour l’heure difficilement accessible. Sont censés y figurer de précieuses informations relatives à neuf millions d’entreprises, vérifiées et actualisées régulièrement par l’INSEE : nom, adresse, numéro SIRENE ou SIRET, importance de l’effectif, date de création de la structure, etc.

Encore quelques jours d’attente

Sauf qu’à l’heure où nous écrivons ces lignes, la fonctionnalité de « sirene.fr » permettant de se constituer gratuitement une liste d’établissements sur mesure se révèle « temporairement indisponible » (voir ci-dessous). Contacté, l’institut national de la statistique explique que son site est en maintenance : « Nous avions précisé que les données de la base Sirene seraient mis à disposition de tous à compter de début janvier, les premiers jours du mois étant réservés à une mise en concordance de la base de diffusion avec le répertoire Sirene. »

sirene

En revanche, les fichiers de la base Sirene devraient être publiés sur la plateforme gouvernementale d’Open Data, « data.gouv.fr », « demain ou vendredi », nous a-t-on annoncé.

Cette réforme, qui devrait apporter de « nombreux bénéfices » selon l’exécutif (« notamment au niveau des services de recherche d'emploi ou pour le développement commercial des entreprises »), a nécessité un « effort budgétaire de plus de 10 millions d’euros ». Il faut dire qu’il fallait jusqu’ici débourser entre 99,35 euros et plusieurs dizaines de milliers d’euros pour accéder à la base Sirene, en fonction de l’utilisation souhaitée.

Écrit par Xavier Berne

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Encore quelques jours d’attente

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (36)


Ouéééé ! on va être encore plus spammé par les prospecteurs relou !


Tu crois vraiment que les spammeurs avaient besoin de ca?

Au contraire ca va permettre a ceux ayant besoin de ces infos pour diverses raison de les obtenir facilement/gratuitement.


Sauf qu’en plus d’augmenter le nombre de personnes qui vont te faire chier,  ils vont aussi pouvoir le faire gratos…



En tout cas ce qui me choque c’est que j’était persuadé que c’était SIREN (comme le numéro) :o


La constitution de la liste fonctionne maintenant


SIREN pour les codes des ENtreprises, SIRET pour les codes de leurs ETablissements, SIRENE pour le fichier regroupant les infos des ENtreprises et de leurs Etablissements.


Des sites comme societe.com ne vont guère apprécier !








myahoo a écrit :



Des sites comme societe.com ne vont guère apprécier !





Oui, en partie. Societe.com fait aussi des analyses de bilan, des raccordements de gérant sur plusieurs entités, les sci, des alertes etc.



ça une super nouvelle, on va enfin pouvoir -au moins- vérifier la validité d’un siren, pour beaucoup de site ecommerce B to B c’est essentiel.



y’a le code NAF avec ?



Ouaip code NAF et pleins d’autres infos

A 10 centimes /établissement, ça va faire de sacrées économies ;)

 


Merki, je ne savais pas :<img data-src=" />








boogieplayer a écrit :



Oui, en partie. Societe.com fait aussi des analyses de bilan, des raccordements de gérant sur plusieurs entités, les sci, des alertes etc.



ça une super nouvelle, on va enfin pouvoir -au moins- vérifier la validité d’un siren, pour beaucoup de site ecommerce B to B c’est essentiel.



y’a le code NAF avec ?





Excusez moi si je fait une remarque idiote mais pourquoi la dernière question ?



De part mon travail (Comptabilité fournisseur), je vais souvent sur le site societe.com et j’ai toujours trouvé le code&nbsp; NAF sur&nbsp; ce site … &nbsp;



perso j’utilise depuis un petit bout de temps firmapi qui est gratuit et fonctionne parfaitement


En dehors de la fiche sirene on peut obtenir quoi en payant concernant les entreprises? Je pensais que pour toutes infos fallait payer sur infogreffe…


Bonjour, j’ai téléchargé le fichier CSV (8Go quand même) mais trop lourd pour être ouvert sur Excel et autres.&nbsp;

Comment on peut l’exploiter ? vous connaissez un outil pour l’ouvrir et utiliser des filtres pour trouver les entreprises que l’on souhaite ?

Merci ;)


Import dans access ou autre base de données plus solide si ça ne passe pas


Prochaine étape la déclaration individuelle des entreprises en accès libre ?



Comme ça quand tu veux négocier à la baisse le salaire à un entretient d’embauche, il suffit de regarder combien il touchait avant&nbsp;<img data-src=" />


Suis-je le seul a trouver ca totalement incohérent que l’Open Data gouvernemental nous mette a dispo des Zip, PDF , et autres formats exotiques au lieu de proposer les infos directement via des api exploitables ?



J’ai le sentiment que c’est fait exprès pour décourager d’éventuelles tentatives d’exploitation des données car trop cher à extraire, stocker, convertir avant exploitation.








Vilainkrauko a écrit :



Excusez moi si je fait une remarque idiote mais pourquoi la dernière question ?



De part mon travail (Comptabilité fournisseur), je vais souvent sur le site societe.com et j’ai toujours trouvé le code&nbsp; NAF sur&nbsp; ce site … &nbsp;





Bah, je voulais savoir si dans le fichier sirene fournie par date.gouv.fr y’a le code naf correspondant au sirene… le but est que des machine puissent traiter le fichier, la machine ne pourra pas aller sur societe.com pour trouver le naf correspondant.









lanoux a écrit :



perso j’utilise depuis un petit bout de temps firmapi qui est gratuit et fonctionne parfaitement





firmapi n’est pas à jour, beaucoup de société n’y sont pas. Comme celle d’un ami qui existe depuis plusieurs années. Des sociétés radiés y sont encore et non indiquées comme radiées, liquidées… (j’ai des exemple) la fiabilité n’est pas assez haute pour l’utiliser dans un but professionnel&nbsp;<img data-src=" />









ziouf a écrit :



Suis-je le seul a trouver ca totalement incohérent que l’Open Data gouvernemental nous mette a dispo des Zip, PDF , et autres formats exotiques au lieu de proposer les infos directement via des api exploitables ?



C’est vrai que je ne l’ai pas rappelé dans cet article, mais la base Sirene devrait faire l’objet d’un “support” spécifique si le gouvernement la désigne comme jeu de “données de référence”. Cf cet article : https://www.nextinpact.com/news/102639-loi-numerique-service-public-donnee-se-dessine.htm









ziouf a écrit :



Suis-je le seul a trouver ca totalement incohérent que l’Open Data gouvernemental nous mette a dispo des Zip, PDF , et autres formats exotiques au lieu de proposer les infos directement via des api exploitables ?



J’ai le sentiment que c’est fait exprès pour décourager d’éventuelles tentatives d’exploitation des données car trop cher à extraire, stocker, convertir avant exploitation.





Zip et PDF, c’est peut-être des formats proprio, mais c’est très loin d’être des formats exotiques… Et surtout un commentaire plus haut indiquait que c’est récupérable en CSV, donc le format parfait qui peut être lu par tout et facilement importable dans une base de donnée.&nbsp;



a merdoume, je savais pas ça, c’est pas ce qui est indiqué sur leur site (enfin perso j’ai toujours trouvés les sociétés que je cherchais :s )








ziouf a écrit :



Suis-je le seul a trouver ca totalement incohérent que l’Open Data gouvernemental nous mette a dispo des Zip, PDF , et autres formats exotiques au lieu de proposer les infos directement via des api exploitables ?



Zip et PDF exotiques, c’est un troll?









t0FF a écrit :



Zip et PDF, c’est peut-être des formats proprio, mais c’est très loin d’être des formats exotiques… Et surtout un commentaire plus haut indiquait que c’est récupérable en CSV, donc le format parfait qui peut être lu par tout et facilement importable dans une base de donnée.



Justement Zip et PDF sont des formats ouverts, pas proprios. N’importe qui peut les implémenter sans devoir rendre de compte. Et lisibles par une multitude de logiciels facilement récupérables par le pékin moyen.



J’ai dis “peut-être”. <img data-src=" />&nbsp;J’ai eu la flemme de vérifier, merci de confirmer qu’ils ne sont ni exotiques ni proprios.&nbsp;



Du coup j’imagine que oui c’est un troll, en ce moment je tombe dedans à chaque fois&nbsp;<img data-src=" />








Patch a écrit :



Zip et PDF exotiques, c’est un troll?





Justement Zip et PDF sont des formats ouverts, pas proprios. N’importe qui peut les implémenter sans devoir rendre de compte. Et lisibles par une multitude de logiciels facilement récupérables par le pékin moyen.





PDF un format ouvert O_O Allons bon…









lanoux a écrit :



a merdoume, je savais pas ça, c’est pas ce qui est indiqué sur leur site (enfin perso j’ai toujours trouvés les sociétés que je cherchais :s )





Ouep, c’est pas complètement à jour. ça le sera peut être avec ce nouveau site.



j’espère par ce que l’api est vraiment réactive, et pas besoin de monter une usine à gaz pour traiter soit même le fichier stock et les MAJ (incluant les radiations de boites), et puis vu la taille du fichier stock je vois mal gérer ça depuis un mutu pour le dl des fichiers et incrémentation en bdd


Ah oui je suis bien d’accord, l’API est super nickel et hyper simple à mettre en oeuvre et à intégrer dans son système d’information.



Encore fois, y’a fort à parier qu’ils vont profiter de sirene.fr pour se caler bien :)


Il y a une api sur data.gouv.fr :https://www.data.gouv.fr/fr/apidoc/ , reste plus qu’à tester








boogieplayer a écrit :



PDF un format ouvert O_O Allons bon…



Tu devrais corriger la page Wikipedia sur les formats ouverts, du coup. Et signaler à Adobe qu’ils se plantent sur leur propre site. <img data-src=" />



Le PDF est depuis longtemps un format ouvert, volonté d’Adobe. Même si c’est assez peu connu.



oui: le pdf et le ZIp font bien partie duréférentiel général d’interopérabilité publié par le gouvernement. C’est pas TOP mais pas illogique donc.


C’est bien ca le pb que je souligne…. Il faut importer les données dans une base. Donc encore faire de la duplication de données et donc perdre de la fraîcheur car il faut perpétuellement réimporter toutes les data pour rester à jour.

Une api requetable serait tellement plus adaptée pour ce genre de service .


Je te met au défi de faire de l’extraction, indexation, exploitation de data sur des scan de document manuscrit enregistrés au format PDF !



Le format pdf est un format de *@#! pour la traitement automatisé de données.



On arrive à peu près à en faire quelque chose quand c’est du texte pur. Mais dans ce cas il n’a aucun intérêt à être publié dans ce format. Dès qu’il y a un tableau, ou de la mise en forme type deux ou trois colonnes l’extraction se révèle ultra laborieuse.



Un format open et libre ne l’est pas seulement quand la spec du format est dispo mais surtout quand on a des outils open et libres dispo pour l’exploiter a 100%. Il n’existe aucune lib open et libre qui exploitent plus que l’extraction du texte brut sans tenir compte de la mise en forme à ma connaissance.


Certes il y a une api et c’est bien. Mais elle ne permet pas de requeter la data. Seulement de sortir les fichiers …



Alors quand c’est des csv c’est à peu pres gérable, mais quand c’est des scans de doc manuscrits au format pdf (jamais la même version de la spec en plus), ou des zip contenant toute une batterie de xsl ou xlsx ou encore divers formats de cartografie différents …. bah c’est relou



Un projet d’open data gouvernemental cohérent c’est une api publique qu’on peut directement requeter à la méthode DBpedia.








ziouf a écrit :



Je te met au défi de faire de l’extraction, indexation, exploitation de data sur des scan de document manuscrit enregistrés au format PDF !



Je ne vois pas pquoi je le ferais, je n’en ai aucun intérêt. On n’utilise que du PDF texte ici, pas de PDF image.



Le but c’est de mettre à disposition les données, pas de prendre en charge les frais de serveur pour tous les sites qui auraient besoin de ces données…&nbsp;



Même pour les organismes du gouvernement qui ont besoin de ces données, ça passe par un export régulier dans une table temporaire puis un merge, on ne pourrit pas les serveurs en tapant dedans en continu…


… DBpedia qui demande de la tune en page d’accueil parce que c’est pas gratuit d’héberger un service de données.



Un projet d’open data (gouvernemental) cohérent c’est que soit les utilisateurs fasse eux même leur api, soit qu’une entreprise prennent les données et revendent des services API payants à des gens qui ne savent/veulent pas traiter des csv.