Dans les coulisses du dépôt légal de l’Internet

image dediée
Annonces
La mise à disposition de milliards d'archives
Une fois le processus d’archivage terminé, il ne reste plus qu’à consulter l’ensemble des sites collectés à la Bibliothèque François Mitterrand, à Paris. 

interface archives web bnf
Interface de consultation des archives du Web

Concrètement, le système fonctionne comme un intranet, permettant de se déplacer de lien en lien si l’URL correspondante est présente dans la base de données de la BNF. Il ne permet cependant pas d’effectuer des recherches grâce à un moteur de recherche comme Google. Il vaut donc mieux s’armer d’une adresse précise si l’on veut retrouver un site en particulier.

interface archives web bnf pcinpact 
3 archives de PC INpact sont disponibles pour l'année 2004, contre plus de 500 pour 2011 

L’accès au dépôt légal de l’internet est toutefois limité aux « chercheurs accrédités », ce qui signifie que seules les personnes justifiant d’un intérêt légitime peuvent accéder aux archives du Web. Autrement dit, cet accès est plus large qu’aux seuls individus menant des recherches scientifiques, permettant ainsi à chacun de solliciter une consultation des sites collectés. En moyenne, il y a environ 50 consultations publiques par mois, dont la plupart durent une heure ou plus, ce qui laisse à penser que ces consultations sont avant tout effectuées à des fins de recherche.

archive pcinpact 2004 
Une des premières sauvegardes de PC INpact, datant de mars 2004

Comme pour le reste de la bibliothèque, il faut s’acquitter d’un titre d’accès de 3,50 € si l’on vient à la journée, à moins d'avoir opté pour un abonnement annuel.

Quel futur pour les archives du Web ?

Parmi les projets du dépôt légal de l'internet, Clément Oury nous a appris que la BNF travaillait actuellement avec certains éditeurs de contenus dont l’accès est restreint pour des raisons légitimes. Plus particulièrement, ce partenariat vise des sites de presse dont les archives sont payantes, nécessitant dès lors un code d’accès pour permettre aux robots de collecter les pages en question. Jusqu’ici, ces dernières ne faisaient pas l’objet d’une collecte du fait de ces barrières techniques, mais une solution devrait être trouvée sous peu, les éditeurs étant eux-mêmes conscients de l’intérêt d’être archivés par la BNF.

Toutefois, aucune mise en ligne des archives n’est prévue. Même si l’idée peut sembler intéressante à premier abord, elle s’oppose en réalité à des obstacles d’ordre juridique. En effet, d’une part cela n’est pas prévu par la loi qui définit le cadre du dépôt légal de l’internet, mais en plus ça poserait des problèmes de droit liés à la loi Informatique et Libertés de 1978. Dans les archives du Web se trouvent effectivement de nombreuses données personnelles, protégées à ce titre par le législateur.

En revanche, un projet d'accès aux collections du dépôt légal de l'internet depuis certaines bibliothèques de province est prévu, même si aucune date de mise en service n'est pour l'instant évoquée. Cela présenterait l'avantage - non négligeable - de ne pas avoir à se rendre à Paris pour consulter les archives du Web. 

À tous ceux qui souhaiteraient tout de même faire un tour sur des sauvegardes de sites Internet sans se déplacer, sachez qu’il est possible de consulter des archives du Web grâce à la « WayBack Machine » d’Internet Archive (disponible à cette adresse). Vous pourrez ainsi remonter dans le temps et avoir accès à certaines pages, telles que celle de Google, visible le 25 janvier 1999 (capture ci-dessous).

google 1999 archive
Publiée le 14/06/2012 à 17:18