Dans les coulisses du dépôt légal de l’Internet

image dediée
Annonces
Entre captures larges et opérations ciblées
Pour sauvegarder le Web français, le dépôt légal de l’internet associe deux grands types de collectes. Tout d’abord, la BNF archive chaque année plus de deux millions de domaines d’après une liste exhaustive des sites en .fr fournie par l’AFNIC, l’association française pour le nommage Internet en coopération. En plus de cette opération systématique, ont lieu des collectes ciblées, qui permettent de combler les lacunes des collectes larges.

En effet, l’archivage pose parfois des problèmes techniques, par exemple si des sites proposent un contenu trop important (supérieur à 10 000 fichiers) ou bien lorsque certains domaines passent à travers les mailles de la collecte large. C’est pour ces raisons que la BNF a décidé de compléter ses collectes larges par des opérations ciblées, permettant à des bibliothécaires ou à des partenaires de la BNF de déterminer manuellement les sites à archiver. Ils peuvent alors en fixer la fréquence d’archivage. Au total, ce sont environ 20 000 sites supplémentaires qui sont ainsi choisis d’après « leurs thèmes, leur rapport à un évènement, leur intérêt patrimonial ou scientifique ».

C'est grâce à ce type d'opération ciblée qu'ont lieu des campagnes ponctuelles comme celle relative à la collecte des sites Web électoraux. Fait intéressant : la liste des sites archivés au titre de cette opération est mise à disposition du public sur le portail OpenData du gouvernement (disponible ici).

liste collecte bnf site électoraux

Des collectes assurées par des robots « moissonneurs »

Une fois que les sites à collecter ont été sélectionnés, c’est un dispositif technique qui prend le relais pour opérer l’archivage des pages Web. L’URL de chaque domaine concerné est entrée dans une application Open Source du nom de Netarchive Suite, qui envoie ensuite les ordres de collecte à un robot fonctionnant lui aussi en Open Source, Heritrix.

Toutes les informations copiées sont alors stockées sur des bandes, plus fiables que les disques en matière de sauvegarde. Les robots fonctionnent toute l’année, 24 heures sur 24, et laissent un avertissement dans les logs de connexion à tous les sites ayant fait l’objet d’un archivage. L’ensemble des données capturées par la BNF est ensuite dupliquée, puisqu’un second site conserve une copie des données collectées, au cas où celles-ci seraient mises à mal par un élément extérieur tel qu’un incendie ou une attaque terroriste.

SPAR cc BNF
Crédits : Patrick Bramoullé / BnF 

Vient enfin une étape d’indexation, qui débouche sur la mise à disposition des sites capturés dans les salles de lecture de la BNF.

Plus de 250 Téraoctets de données cumulées

Au total, la BNF a déjà collecté plus de 16,5 milliards de fichiers, de tailles très variées. Ces derniers ont été compressés, pour tenir moins de place. Il est donc plus intéressant de retenir que cela représente plus 250 Téraoctets de données, soit 250 000 Gigas. Leur accroissement annuel est d’environ 60 à 80 Téras.

Petabox cc BNF 
Les données collectées sont stockées dans ces Petabox (Crédits : David Paul Carr/ BnF).

En termes de dépenses, Clément Oury est resté discret sur le coût des machines, mais nous a indiqué que cinq bibliothécaires et quatre ingénieurs étaient mobilisés en permanence pour assurer le fonctionnement du dispositif. Il a néanmoins résumé la situation en expliquant que « le coût principal c’est du temps de travail », notamment car la BNF bénéficie de l’appui de partenariats internationaux, qui lui permettent de profiter de nombreux logiciels Open Source.
par Xavier Berne Publiée le 14/06/2012 à 17:18