Orisup, mégafichier sur l’ensemble des données personnelles relatives aux étudiants

Orisup, mégafichier sur l’ensemble des données personnelles relatives aux étudiants

Je suis un numéro

Avatar de l'auteur
Marc Rees

Publié dans

Droit

28/12/2018 4 minutes
31

Orisup, mégafichier sur l’ensemble des données personnelles relatives aux étudiants

Ce matin, au Journal officiel, un arrêté a donné naissance à « Orisup ». Derrière l’acronyme, se cache un « système d'information sur l'orientation dans le supérieur ». En pratique, un traitement de données à caractère personnel qui retrace tout le parcours des étudiants, avec un luxe de détails, à des fins statistiques et de recherche. 

Avec « Orisup », le gouvernement veut disposer d’une vue générale sur l'ensemble du dispositif national d'orientation dans l'enseignement supérieur. L’enjeu ? Jauger son efficacité selon les populations, les filières et les types d'établissements.

À ce titre, ses informations sont accessibles à l’ensemble des agents du service statistique ministériel (exception faite des données relatives aux nom, prénoms et lieu de naissance des étudiants).

Sur demande, d’autres pourront y avoir accès, selon les mêmes finalités, tel le comité éthique et scientifique, dont l’une des missions est de remettre chaque année un rapport au Parlement portant sur le déroulement de la procédure nationale de préinscription.

S’y ajoutent, mais uniquement dans le périmètre de leurs travaux, les chercheurs sous convention, cette fois « après application d'un traitement rendant impossible l'identification directe ou indirecte des personnes concernées ».

Mais que trouve-t-on dans Orisup ? Pour le savoir, il faut se plonger dans l’annexe, longue de 170 lignes, où on comprend concrètement qu’il s’agit d’un fichier de fichiers, rassemblant donc des données issues de nombreux traitements déjà en vigueur.

Orisup = APB + Parcoursup + SIECLE + SYSCA + SCOLEGE + OCEAN + AGLAE 

Les données issues de Parcoursup seront par exemple avalées : état civil, coordonnées personnelles, informations relatives aux responsables (lien de parenté, catégorie socioprofessionnelle, adresse postale), informations issues du dossier de bourse, revenu brut global, nombre de frères et sœurs à charge.

De la même source, on trouve aussi des informations sur les activités sportives et artistiques pratiquées par l’étudiant en devenir (niveau de pratique, discipline, résultat, performance, prix obtenus), son CV, ses résultats pour chaque matière, les éléments d'appréciation des professeurs, les résultats obtenus, mention comprise, le niveau de langue française, et même les données de connexion avec dates et heures, les « traces des actions sur le dossier du candidat », le média de connexion utilisé ou la distance entre le domicile et l'établissement de formation demandé.

Des données à peu près identiques sont chalutées dans Admission Post-Bac, le prédécesseur de Parcoursup, avec des adjonctions comme l’éventuelle justification de l'abandon de la procédure par le candidat.

D’autres fichiers servent de vivier, comme le « Système d’information sur le suivi des étudiants » (nationalité de l'étudiant, profession et catégorie socioprofessionnelle de ses parents, commune, département et pays de résidence de l'étudiant, etc.), les traitements SIECLE, SYSCA, SCOLEGE, outre SIFA (pour les apprentis) et OCEAN.

Ce dernier est relatif à la gestion des examens et concours scolaires. Il intègre les avis portés au titre de la scolarité antérieure (livret scolaire, diplôme antérieur, demande de validation des acquis, série du baccalauréat obtenus). Enfin, AGLAE (pour « automatisation de la gestion du logement et de l’aide à l’étudiant ») délivrera l’ensemble des informations issues du CROUS avec une typologie détaillée des aides financières (décision et montant attribué). 

Des données conservées durant 15 ans 

Les données sont conservées en principe durant 15 ans, sauf les nom et prénoms qui resteront stockés deux ans, avant archivage. Juridiquement, le traitement s’appuie non sur le consentement des personnes concernées, mais sur les nécessités liées à l'exécution d'une mission d'intérêt public (article 6 1 e) du RGPD).

Il n’est évidemment guère exceptionnel pour une administration en quête de modernité de disposer d’outils statistiques. L’intérêt de cet arrêté est surtout de révéler en une seule base la masse d’informations prélevées tout au long du parcours des étudiants.

Écrit par Marc Rees

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Orisup = APB + Parcoursup + SIECLE + SYSCA + SCOLEGE + OCEAN + AGLAE 

Des données conservées durant 15 ans 

Fermer

Commentaires (31)


Si le but du fichier est uniquement de faire des statistiques, tout doit être anonymisé, sinon ça devient horiblesup !


Attention, ces données seront mises en Open Bar pour la police, le renseignement et tout le reste de l’exécutif dans 3… 2… 1…


Tu oublies les GAFAM,les démarcheurs téléphoniques et les réseaux de spambots.








fred42 a écrit :



Si le but du fichier est uniquement de faire des statistiques, tout doit être anonymisé, sinon ça devient horiblesup !





On est d’accord ou au moins pseudonymisé, par exemple conserver l’adresse exacte est une donnée qui permettra bien trop facilement de retrouver l’identité.



L’Etat a généralisé le croisement des informations et maintenant passe la vitesse supérieure en créant des fichiers de fichiers.



Lorsqu’on voit comment dans les administrations (et notamment les fac où j’ai travaillé longtemps comme contractuel pour croquer) les accès logiciels et même comment sont saisies les données on peut sincèrement s’inquiéter du jour, de moins en moins improbable, ou les extrémistes de tous les bords seront au pouvoir.



Désolé pour le point godwin mais s’agissant de registres/fichiers administratifs il est totalement justifié, on ne peut pas perpétuellement jouer les cassandres en relevant que les mêmes processus que dans les années 30 sont à l’oeuvre aujourd’hui, et dans le même temps bâtir les outils qui ont a largement facilité les purges et rafles en 40 !



Au début, ces fichiers de fichiers étaient destinées à des finalités précises, lutte contre le blanchiment, contre la fraude fiscale etc… Maintenant on l’annonce à des fins statistiques pour pondre des rapports sur l’efficacité des systèmes d’orientation.



Est-ce qu’on a vraiment besoin de 15 ans de conservation de ces données non correctement pseudonymisées à l’échelle nationale pour déterminer si un service d’orientation dans une fac est performant ?  



Si c’est à but statistique, en quoi le nom ou l’adresse postale sont des données pertinentes ?











crocodudule a écrit :



Désolé pour le point godwin





Ca n’en est pas un.









ragoutoutou a écrit :



Attention, ces données seront mises en Open Bar pour la police, le renseignement et tout le reste de l’exécutif dans 3… 2… 1…





Ou revendues à des boites privées comme pour le fichier des immatriculations.



Depuis quand le gouvernement français a-t-il besoin de s’occuper de son efficacité ? <img data-src=" />



Au pays des licornes tricolores et des Cerfas en quadruple exemplaires la perfection de l’action publique politicotechnicoadministrative est légendaire. La preuve ? La dette, le chômage et tous ces maux qui frappent les tribus libres au alentours sont sous contrôle chez nous, et le bon peuple satisfait procède gaiement à la réélection de leaders étatistes énarchiques avec une récurrence qui frise l’insouciance et l’indolence du drogué commodément assisté.


Toi tu as encore trop forcé sur le bourbon et tes bouquins de Adam Smith à Noel. On dirait le tonton bourré à noel qui crache ses poncifs








ragoutoutou a écrit :



Attention, ces données se retrouveront mises en Open Bar sur Internet dans 3… 2… 1…







Fixed <img data-src=" />



(ce n’est qu’une question de temps) <img data-src=" />









crocodudule a écrit :



Est-ce qu’on a vraiment besoin de 15 ans de conservation de ces données non correctement pseudonymisées à l’échelle nationale pour déterminer si un service d’orientation dans une fac est performant ?&nbsp;&nbsp;



Pour évaluer correctement le système a posteriori avoir une le plus de profondeur possible dans le temps est très important, toutefois les noms et prénoms sont parfaitement inutiles pour cela.



&nbsp;





Jarodd a écrit :



Si c’est à but statistique, en quoi le nom ou l’adresse postale sont des données pertinentes ?&nbsp;



L’adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.







De manière plus générale, la constitution d’une telle base de données accessible aux chercheurs est plutôt une bonne nouvelle puisque cela permet une évaluation des dispositifs mis en place sans le contrôle des politiques sur les résultats des études.



Je ne me fais pas particulièrement de soucis sur le fait que cette base soit correctement anonymisée, les services producteurs de données en France sont habitués à traiter ce genre d’information (que ce soit l’INSEE, la DARES, la DGFIP etc…).

La France est loin d’être en retard quand il s’agit de mettre à disposition des chercheurs des données à des fins de recherche, et ces donnés sont souvent d’excellente qualité.



Quand à ce que la base se retrouve leak sur internet, il ne me semble pas que ce soit arrivée sur les autres bases de données individuelles alors pourquoi avec celle là?&nbsp;





Pour information accéder à ce genre des données ne consiste pas à se voir confier la base de données sur une clef USB, pour la plupart des chercheurs cela passe par une demande auprès du comité du secret statistique, puis une déclaration à la CNIL et enfin on a accès aux données via la CASD (qui donne un accès aux données sur serveur distant où ils contrôlent ce qu’on peut sortir comme information afin que le secret statistique soit maintenu).







NB : bien entendu je ne suis pas à 100% objectif, je suis chercheur en économie et la création de cette base me laisse entrevoir des études très intéressantes qui pourraient devenir possibles quand elle sera disponible.&nbsp;

&nbsp;



Merci d’avoir signalé ton conflit d’intérêt.

Tous le monde est lon d’avoir cet honnêteté.








yacx21 a écrit :



Pour évaluer correctement le système a posteriori avoir une le plus de profondeur possible dans le temps est très important, toutefois les noms et prénoms sont parfaitement inutiles pour cela.

&nbsp;





Tout comme l’adresse exacte là où le code postal est suffisant et des brouettes d’informations qui peuvent être ramenées à une autre échelle pour éviter des identifications a posteriori.



Le code postal c’est quand même pas très précis.



Si tu prends rien qu’une ville pas immense comme Evreux, deux exemples, c’est un peu 2 salles, 2 ambiances et des réalités statistiques qui doivent varier d’un lieu à l’autre :



https://www.google.fr/maps/@49.0087705,1.1628689,3a,60y,103.08h,91.21t/data=!3m6!1e1!3m4!1sjnfaAyPdq9Zufjm5cOStZA!2e0!7i16384!8i8192?hl=fr



https://www.google.fr/maps/@49.0221806,1.1458724,3a,75y,178.05h,92.37t/data=!3m6!1e1!3m4!1sFvKzTpSVczYSgM_C8euDAg!2e0!7i16384!8i8192?hl=fr








yacx21 a écrit :



L’adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.



le seul code postal suffit largement pour ce cas.









Patch a écrit :



le seul code postal suffit largement pour ce cas.





Malheureusement non. Dans une même commune il y a souvent de disparités. Je suis d’accord avec toi que l’adresse est trop précise. Coupons la poire en deux et indiquons plutôt le secteur.









yacx21 a écrit :



&nbsp;



 L'adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.





&nbsp;

On n’a pas besoin de l’adresse pour faire ce genre de statistique. La ville ou la “zone de vie” (agglo), ça suffit.



Quelles qualifications te permettent d’infirmer ce que te dit quelqu’un qui est du métier ?








Jarodd a écrit :



&nbsp;

On n’a pas besoin de l’adresse pour faire ce genre de statistique. La ville ou la “zone de vie” (agglo), ça suffit.





Ca dépend de ce à quoi on s’intéresse. SI ce sont les égalités inter-urbaines alors en effet la commune voir la zone d’emploi suffisent, mais si on s’intéresse aux inégalités intra-urbaine alors l’adresse devient pertinente.



Même dans le cas des égalités inter-urbaines on peut parfois calculer des mesures d’accessibilité basées sur la distance à des points d’intérêt (l’université, le centre ville etc…) et sans l’adresse impossible de construire de telles mesures.





Ce que je comprend pas c’est le problème avec ce genre d’informations : elles ne seront jamais accessibles publiquement. Du point de vue de l’autorité public l’adresse n’est pas une réelle plus-value puisqu’elle peut retrouver l’adresse par d’autres moyens (recensement, impôts etc…). Du point de vue de la recherche les informations sont suffisamment protégées pour qu’un chercheur ne puisse pas diffuser des informations.&nbsp;



Bien entendu sur le papier il pourrait les recopier à la main en les lisant sur le serveur distant pour s’en servir mais les poursuites pénales sont assez dissuasives (je n’ai pas le détail sous la mais c’est au bureau et je suis en vacances)&nbsp;, sans compter le fait qu’il serait par la suite pour lui impossible d’accéder de nouveau à de telles données (ce qui poserait un gros problème pour travailler). Et autre point, ça coûte assez chère d’accéder à de telles données (1500€ l’année par projet), encore une raison de moins de risquer de s’en voir fermer l’accès au cours d’un projet pour lequel on a déjà payé.&nbsp;



Si certains sont curieux de voir les procédures pour accéder à des données similaires, voici le site qui détail la procédure :&nbsp;

https://www.comite-du-secret.fr/



Puis ensuite le site du fournisseur d’accès aux données :&nbsphttps://www.casd.eu/





La procédure générale consiste à :&nbsp;




  • Déposer un dossier auprès du comité du secret statistique exposant son projet de recherche et pour l’accès à des données sous secret statistique est nécessaire pour le mener à bien.

  • On présente son projet en réunion devant le comité du secret statistique et on se voit ou non autoriser à accéder aux données demandées. SI l’accès est autoriser on passe à la suite sinon on recommence au début.

  • On fait une déclaration CNIL spécifique à l’accès à ce type de données.

  • On contact le CASD concernant le projet (mise à disposition des données, facturation).

  • On suit une formation d’une demi-journée dans les locaux du CASD pour nous expliquer comment l’accès aux données sur le serveur distant fonctionne et nous remettre une carte d’accès personnelle (qui fonctionne uniquement avec les boîtiers spécifiques également fournis par le CASD).





    Bref, de la paperasse, beaucoup, mais des données de très bonne qualité qui permettent de faire avancer la recherche plutôt qu’elles soient uniquement disponibles dans les services qui les produisent.








yacx21 a écrit :



Quand à ce que la base se retrouve leak sur internet, il ne me semble pas que ce soit arrivée sur les autres bases de données individuelles alors pourquoi avec celle là?





Avant le premier leak il n’y en avait pas eu

Avant le leak de Yahoo il n’y avait jamais eu de leak de plus d’un milliard de comptes

Il y a 10 ans il n’y avait jamais eu de leak de données biométriques



Et là il s’agit d’une base qui en recoupe 7







yacx21 a écrit :



Ca dépend de ce à quoi on s’intéresse. SI ce sont les égalités inter-urbaines alors en effet la commune voir la zone d’emploi suffisent, mais si on s’intéresse aux inégalités intra-urbaine alors l’adresse devient pertinente.



Même dans le cas des égalités inter-urbaines on peut parfois calculer des mesures d’accessibilité basées sur la distance à des points d’intérêt (l’université, le centre ville etc…) et sans l’adresse impossible de construire de telles mesures.





Perso ça me dérange surtout concernant des mineurs.

Le code postal est effectivement trop large, le code IRIS me dérangerait bien moins.



Merci pour ces explications sur l’accès nominal à ces données.



Cette présentation me semble très progressiste et pourrait occulter les risques de dérives d’une telle accumulation de données, mais il me paraît normal qu’un chercheur ait une vision progressiste.


Ah, ça sent le vécu !


Argument d’autorité (= nul).



Sa réponse est convenable parce que le commentaire auquel il répond indique une échelle « géographique », ce qui est assez vague éviter tout reproche : comme il est difficile de faire plus précis qu’une adresse, et à moins de vouloir étudier des inégalités maison par maison ou individu par individu, ce dont tout le monde se fiche puisque qu’elles sont fort heureusement là pour rester, cette précision « géographique » est largement superflue. Au mieux, la demande d’une telle précision indique que la question est mal posée.



Voire même contre-productive : par ex. le cas d’une étude où ce degré de précision a été utilisé pour raffiner artificiellement un modèle de corrélations et donc augmenter son impact potentiel, alors même que les données sous-jacentes étaient inadaptées (ce qui était reconnu par les auteurs dans un autre de leur papier !), pour évaluer un supposé « problème sanitaire » de pollution. Résultat : des conclusions injustifiables (= erronées) mais largement utilisées politiquement parce qu’allant dans le « bon sens ».


Merci pour ce commentaire constructif et intéressant. Ça change des commentaires limite complotiste qu’on trouve malheureusment trop souvent ici-même…


Tu prend un cas spécifique pour faire des conclusions générales, j’ai connu mieux comme démarche scientifique.



Je ne sais pas ce qui se fait dans toutes les disciplines alors je ne me prononcerais pas dessus, mais pour évaluer la formation il me semble qu’il s’agit plus du travail des économistes. L’aspect spatial de l’analyse empirique en économie est quelque chose que je fais beaucoup, c’est pourquoi je me suis prononcé sur le sujet.



&nbsp;

Quand on s’intéresse au cas de l’adresse il y a deux manières de voir les choses : est-ce utile pour l’analyse et est-ce-que cette précision nuit d’avantage qu’une information à la commune par exemple.



Pour l’utilité de cette information dans l’analyse économique, le cadre d’analyse est celui de l’économie urbaine.&nbsp; On s’intéresse ici à l’accessibilité des étudiants à l’université et potentiellement à leurs résultats. Le temps de trajet pour se rendre à l’université aura donc un intérêt notable dans l’analyse. Une mesure d’accessibilité aura pour objectif d’être la plus précise possible (temps de trajets ou distance à un point d’intérêt).

Bien sur il y a des cas où l’adresse n’a que peu d’intérêt, lorsqu’on cherche à étudier ce qu’on appelle les économies d’agglomération alors la zone d’emploi est l’échelle la plus pertinente.

Mais le choix de l’échelle géographique va dépendre de chaque étude, et pour le cas de l’accès à l’université et des résultats, l’adresse apporte un réel plus dans la précision de l’analyse.&nbsp;



Pour ce qui est du “risque” d’avoir l’adresse au lieu de la commune, il faut savoir que dans les deux cas les données seront considérées comme identifiables, donc protégées de la même manière. Une information sur la commune avec les autres informations sur un individus permettront souvent de retrouver l’identité d’un individu (d’où le fait que les données dites identifiables soient sous secret statistique). La plupart du temps en France on considère une donnée non identifiable lorsque l’échelle géographique n’est pas plus précise que la région.


L’exemple était une simple illustration que la précision n’est pas nécessairement un gage de qualité, rien de plus. Je conçois et conviens qu’elle puisse avoir son utilité si tant est que le problème ait un intérêt, soit correctement posé et bénéficie d’une méthodologie adéquate.



Ici, on a plus affaire à du travail de sociologie mineur et anecdotique que d’économie (mais les économistes ont tendance à s’infiltrer partout où on ne les attend pas, et pour ma part vu l’état de la sociologie, c’est pour le meilleur) : les « résultats » étant majoritairement du ressort des compétences individuelles, pourquoi étudier l’accessibilité relativement à ce critère a un quelconque intérêt qui requiert une telle précision m’échappe. Mais je ne suis pas économiste ;)








yacx21 a écrit :



Tu prend un cas spécifique pour faire des conclusions générales, j’ai connu mieux comme démarche scientifique.





C’est sa méthode de prédilection pour faire de la propagande. Je lui réponds assez rarement, dans ces cas là, ici, c”était tellement hors du contexte de la discussion que ça n’en valait pas la peine.









tmtisfree a écrit :



Mais je ne suis pas économiste ;)





Non ?

Vu comme t’arrêtes pas de déballer des théories économiques fumeuses ici, en citant tous les économistes du monde dans toutes les langues, moi je pensais que t’étais docteur en économie, au moins. Si pas beaucoup mieux

Tristesse, tristesse…



Le savoir, la compétence, la qualité de la recherche ou des idées etc. ne se mesurent pas qu’à l’aune des diplômes, fort heureusement.



Sinon, pourquoi qualifier de « fumeuses » des théories alors que tu n’es pas toi-même économiste (et donc, selon ta position, incompétent pour les juger) ?



Il est vrai que la cohérence et l’honnêteté intellectuelles ne sont que peu de choses quand on peut sans effort succomber à ses biais (ou aux sophismes comme le n° 42) …


<img data-src=" />








Drepanocytose a écrit :



Non ?

Vu comme t’arrêtes pas de déballer des théories économiques fumeuses ici, en citant tous les économistes du monde dans toutes les langues, moi je pensais que t’étais docteur en économie, au moins. Si pas beaucoup mieux

Tristesse, tristesse…



Ou quand Ca dit enfin que c’est un énorme incompétent (en 1 mot comme en 3)… Mais ne le reconnaîtra ensuite jamais, étant donné que c’est un paradoxe permanent, toujours prêt à dire tout et son contraire pour être le seul et unique à avoir raison même si tu avais eu le malheur d’être d’accord avec lui.