La BNF et le dépôt légal de l'internet
En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article). Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement.Une logique de conservation depuis François 1er
Depuis 1537, la BNF a pour mission de collecter au titre du dépôt légal divers documents mis à la disposition du public, à commencer par les documents imprimés. Au fur et à mesure que les progrès techniques conduisaient à l’apparition de nouveaux médias, la liste des éléments conservés au titre du dépôt légal s’allongeait. Tant et si bien qu’aujourd’hui, cette mission s’étend aux documents audiovisuels comme les DVD, ainsi qu’aux logiciels et bases de données, comme le précise le site de la BNF. Le principe est le suivant : à chaque fois qu’un éditeur publie un contenu intellectuel, il est obligé d’en transmettre une copie à la BNF.Le développement des communications par voie électronique et l’apparition récente du Web ont progressivement conduit le dépôt légal à élargir son champ d'application aux sites Internet. Même si son cadre légal a été défini plus précisément lors de la loi DADVSI de 2006, le dépôt légal de l’Internet effectue depuis 2002 différentes opérations d’archivage du Web. L’intérêt de ces collectes automatisées est de conserver un échantillon du web, permettant de savoir à quoi ressemblait l’internet français à une date précise. De fait, la première collecte opérée par la BNF date de 2002, mais il possible de retrouver dans les archives de l’établissement public des sites plus anciens, grâce à partenariat avec Internet Archive. La BNF détient ainsi une copie du premier site du Monde, datant de 1997.
Obtenir une représentation du Web français à un moment donné
Cette logique de conservation à long terme n’est toutefois pas destinée à entretenir uniquement les éléments les plus intéressants du Web français, mais plutôt une représentation de ce qui était globalement disponible à un moment donné. Comme l’explique Clément Oury, « on conserve un peu tout et n’importe quoi, parce que c’est aussi important de voir que la consommation culturelle des français en 2012 c’était un peu tout et n’importe quoi ». Ainsi, de la même manière que le dépôt légal papier reçoit par exemple des sudokus, le dépôt légal du Web va lui aussi conserver certains jeux populaires sur la toile, tels que « des jeux d’épluche patate »Délimitation du « Web français »
Comme le reste du dépôt légal, le service des archives du Web est limité aux documents nationaux. Autrement dit, le législateur a confié à la BNF la mission de collecter uniquement les sites français, toute capture d’un site étranger sortant dès lors de son cadre légal. Ce critère de nationalité est néanmoins plus facile à établir s’agissant des documents matériels que des sites web, les frontières de la toile étant parfois complexes à déterminer. La définition du « Web français » a ainsi été fixée plus précisément par un décret du 11 décembre 2011, et concerne désormais :- tout site en .fr
- tout site dont le nom de domaine a été réservé par une personne physique ou morale hébergée en France (www.pcinpact.com se trouve ainsi concerné)
- tout site proposant des contenus dont on peut prouver qu’ils ont été produits sur le territoire national (par exemple un blog hébergé aux États-Unis mais rédigé par un français)
Entre captures larges et opérations ciblées
Pour sauvegarder le Web français, le dépôt légal de l’internet associe deux grands types de collectes. Tout d’abord, la BNF archive chaque année plus de deux millions de domaines d’après une liste exhaustive des sites en .fr fournie par l’AFNIC, l’association française pour le nommage Internet en coopération. En plus de cette opération systématique, ont lieu des collectes ciblées, qui permettent de combler les lacunes des collectes larges.En effet, l’archivage pose parfois des problèmes techniques, par exemple si des sites proposent un contenu trop important (supérieur à 10 000 fichiers) ou bien lorsque certains domaines passent à travers les mailles de la collecte large. C’est pour ces raisons que la BNF a décidé de compléter ses collectes larges par des opérations ciblées, permettant à des bibliothécaires ou à des partenaires de la BNF de déterminer manuellement les sites à archiver. Ils peuvent alors en fixer la fréquence d’archivage. Au total, ce sont environ 20 000 sites supplémentaires qui sont ainsi choisis d’après « leurs thèmes, leur rapport à un évènement, leur intérêt patrimonial ou scientifique ».
C'est grâce à ce type d'opération ciblée qu'ont lieu des campagnes ponctuelles comme celle relative à la collecte des sites Web électoraux. Fait intéressant : la liste des sites archivés au titre de cette opération est mise à disposition du public sur le portail OpenData du gouvernement (disponible ici).
Des collectes assurées par des robots « moissonneurs »
Une fois que les sites à collecter ont été sélectionnés, c’est un dispositif technique qui prend le relais pour opérer l’archivage des pages Web. L’URL de chaque domaine concerné est entrée dans une application Open Source du nom de Netarchive Suite, qui envoie ensuite les ordres de collecte à un robot fonctionnant lui aussi en Open Source, Heritrix.Toutes les informations copiées sont alors stockées sur des bandes, plus fiables que les disques en matière de sauvegarde. Les robots fonctionnent toute l’année, 24 heures sur 24, et laissent un avertissement dans les logs de connexion à tous les sites ayant fait l’objet d’un archivage. L’ensemble des données capturées par la BNF est ensuite dupliquée, puisqu’un second site conserve une copie des données collectées, au cas où celles-ci seraient mises à mal par un élément extérieur tel qu’un incendie ou une attaque terroriste.

Crédits : Patrick Bramoullé / BnF
Vient enfin une étape d’indexation, qui débouche sur la mise à disposition des sites capturés dans les salles de lecture de la BNF.
Plus de 250 Téraoctets de données cumulées
Au total, la BNF a déjà collecté plus de 16,5 milliards de fichiers, de tailles très variées. Ces derniers ont été compressés, pour tenir moins de place. Il est donc plus intéressant de retenir que cela représente plus 250 Téraoctets de données, soit 250 000 Gigas. Leur accroissement annuel est d’environ 60 à 80 Téras.En termes de dépenses, Clément Oury est resté discret sur le coût des machines, mais nous a indiqué que cinq bibliothécaires et quatre ingénieurs étaient mobilisés en permanence pour assurer le fonctionnement du dispositif. Il a néanmoins résumé la situation en expliquant que « le coût principal c’est du temps de travail », notamment car la BNF bénéficie de l’appui de partenariats internationaux, qui lui permettent de profiter de nombreux logiciels Open Source.
Coopération internationale et logiciels libres
Depuis 2003, la BNF est membre de l’International Internet Preservation Consortium (IIPC), une organisation internationale qui promeut l’archivage de l’internet à l’échelle mondiale. Son objectif est de réussir à couvrir l’ensemble du Web grâce à des initiatives locales. Pour arriver à un tel résultat, l’IIPC préconise le partage de techniques adaptées, et notamment le développement d’applications Open Source.
Web Archiving and the IIPC - French from IIPC - Netpreserve.org.
Comme nous l’a expliqué Clément Oury, l’IIPC « regroupe une quarantaine d’institutions qui archivent le Web un peu partout dans le monde », même si ses membres proviennent avant tout des pays dits du Nord (États-Unis, pays de l’Union européenne, Australie, Japon,...). On y retrouve par exemple la célèbre Bibliothèque du Congrès des États-Unis, la Bibliothèque nationale australienne, mais également certaines universités, telle que celle d’Harvard. En France, il y a deux membres de l’IIPC, la BNF et l’Institut national de l’audiovisuel (INA), qui est pour sa part responsable du dépôt légal des programmes audiovisuels et de radio. L’association sans but lucratif Internet Archive fait également partie d’IIPC, et a fourni à ce titre « la plupart des technologies et des procédures » permettant à la BNF de remplir sa mission d'archivage du Web. Sa participation a également permis de transmettre un savoir-faire, puisqu’Internet Archive a formé les équipes de la BNF.
Des applications Open Source, un gage d'indépendance
Dès les premières expérimentations d’archivage du Web, au début des années 2000, la BNF utilisait déjà des logiciels libres. Aujourd’hui encore, cette logique d’ouverture est particulièrement prégnante, aussi bien du côté de la BNF que de l’IIPC. « La quasi-totalité des institutions d’IIPC utilise les mêmes outils, qui sont tous Open Source », nous a confirmé Clément Oury. Il s'avère en effet que « le développement et l'usage collaboratif de logiciels libres, de techniques et de normes pour la création d'archives internationales et interopérables » fait plus précisément partie des objectifs de l'organisation internationale.Comme l’explique le responsable du dépôt légal de l’internet, le logiciel libre présente l’avantage « d’avoir totalement la main sur [ses] produits », ce qui est un gage d’indépendance pour la BNF. « Nos collections sont des copies de sites web faites par un robot, donc c’est très important pour nous que ce robot soit une chose sur laquelle on ait parfaitement la main, et dont les spécifications soient faites par des gens qui soient très au fait des problématiques des bibliothèques ».
De plus, le libre permettra à plus long terme aux générations futures de comprendre comment fonctionnaient les robots d’aujourd’hui. Clément Oury a également souligné que « la dimension collaborative est extrêmement utile avec l’Open Source », puisque lorsqu’un logiciel est développé par un membre d’IIPC, il est très fréquemment partagé avec les autres membres de l’organisation.
Également trésorier de l’IIPC, Clément Oury reconnaît enfin que « c’est important de ne pas dépendre d’un acteur commercial », comme cela peut être le cas lorsqu’on achète un logiciel propriétaire. C’est toutefois « plus pour cet aspect d’indépendance » que la BNF a opté pour des logiciels Open Source que pour des raisons purement financières : « Au final, l’achat d’un logiciel n’est pas forcément ce qu’il y a de plus cher ».
Focus sur l’archivage des réseaux sociaux
Grande nouveauté de la campagne de collecte des sites électoraux de l’année 2012, les réseaux sociaux font eux aussi partie des sites capturés. Même si la BNF est en théorie en mesure d’archiver tous les comptes publics, il s’avère qu’en pratique elle se concentre uniquement sur certains utilisateurs.Entre le 23 janvier et le 23 juillet 2012, Facebook, Twitter, Google+, Pinterest et Flickr sont régulièrement passés en revue par les robots de la BNF, qui collectent plus particulièrement « les comptes des utilisateurs impliqués dans la campagne ». Rentrent ainsi dans cette catégorie les « comptes officiels, soutiens importants, médias, militants particulièrement actifs, etc. ».
Toutefois, comme l’explique Clément Oury, la BNF « n’est pas là pour violer la vie privée des gens », et les correspondances privées échappent de ce fait à l’opération de collecte de certains comptes. En réalité, ce sont 916 fils Twitter et 839 pages Facebook qui sont collectés durant l'opération de cette année, uniquement dans le cadre de la campagne d’archivage des sites électoraux.
En dehors de cette opération ponctuelle, la BNF s’intéresse à des comptes plus variés, alternant une fois de plus collecte large et opérations ciblées. Il s'avère ainsi que les différents comptes officiels, tels que celui de l’Élysée ou du ministère de l'Intérieur, font plus particulièrement l'objet d'archivages réguliers. L’enjeu est de pouvoir conserver une trace de la communication de l’administration ou du Gouvernement, qui s’opère au travers de ces outils en ligne.
Dans la pratique, les robots sont parfois confrontés à des problèmes techniques. « Ce qui est compliqué pour nous, c’est que Twitter et Facebook ont tendance à changer leur modèle de publication très vite, tout le temps, sans prévenir personne », explique Clément Oury. Le responsable du dépôt légal de l’internet se veut toutefois rassurant, dans la mesure où la Bibliothèque du Congrès des États-Unis dispose d’un accord avec Twitter, qui lui permet d’accéder à l’ensemble des archives du site de micro-blogging. « On sait qu’on a au minimum un miroir de tous les tweets français quelque part à Washington ».
Le fil Twitter et le compte Facebook de PC INpact ont par exemple été archivés :
La mise à disposition de milliards d'archives
Une fois le processus d’archivage terminé, il ne reste plus qu’à consulter l’ensemble des sites collectés à la Bibliothèque François Mitterrand, à Paris.
Interface de consultation des archives du Web
Concrètement, le système fonctionne comme un intranet, permettant de se déplacer de lien en lien si l’URL correspondante est présente dans la base de données de la BNF. Il ne permet cependant pas d’effectuer des recherches grâce à un moteur de recherche comme Google. Il vaut donc mieux s’armer d’une adresse précise si l’on veut retrouver un site en particulier.
L’accès au dépôt légal de l’internet est toutefois limité aux « chercheurs accrédités », ce qui signifie que seules les personnes justifiant d’un intérêt légitime peuvent accéder aux archives du Web. Autrement dit, cet accès est plus large qu’aux seuls individus menant des recherches scientifiques, permettant ainsi à chacun de solliciter une consultation des sites collectés. En moyenne, il y a environ 50 consultations publiques par mois, dont la plupart durent une heure ou plus, ce qui laisse à penser que ces consultations sont avant tout effectuées à des fins de recherche.
Comme pour le reste de la bibliothèque, il faut s’acquitter d’un titre d’accès de 3,50 € si l’on vient à la journée, à moins d'avoir opté pour un abonnement annuel.
Quel futur pour les archives du Web ?
Parmi les projets du dépôt légal de l'internet, Clément Oury nous a appris que la BNF travaillait actuellement avec certains éditeurs de contenus dont l’accès est restreint pour des raisons légitimes. Plus particulièrement, ce partenariat vise des sites de presse dont les archives sont payantes, nécessitant dès lors un code d’accès pour permettre aux robots de collecter les pages en question. Jusqu’ici, ces dernières ne faisaient pas l’objet d’une collecte du fait de ces barrières techniques, mais une solution devrait être trouvée sous peu, les éditeurs étant eux-mêmes conscients de l’intérêt d’être archivés par la BNF.Toutefois, aucune mise en ligne des archives n’est prévue. Même si l’idée peut sembler intéressante à premier abord, elle s’oppose en réalité à des obstacles d’ordre juridique. En effet, d’une part cela n’est pas prévu par la loi qui définit le cadre du dépôt légal de l’internet, mais en plus ça poserait des problèmes de droit liés à la loi Informatique et Libertés de 1978. Dans les archives du Web se trouvent effectivement de nombreuses données personnelles, protégées à ce titre par le législateur.
En revanche, un projet d'accès aux collections du dépôt légal de l'internet depuis certaines bibliothèques de province est prévu, même si aucune date de mise en service n'est pour l'instant évoquée. Cela présenterait l'avantage - non négligeable - de ne pas avoir à se rendre à Paris pour consulter les archives du Web.
À tous ceux qui souhaiteraient tout de même faire un tour sur des sauvegardes de sites Internet sans se déplacer, sachez qu’il est possible de consulter des archives du Web grâce à la « WayBack Machine » d’Internet Archive (disponible à cette adresse). Vous pourrez ainsi remonter dans le temps et avoir accès à certaines pages, telles que celle de Google, visible le 25 janvier 1999 (capture ci-dessous).