[Dossier PCi] Dans les coulisses du dépôt légal de l'Internet

Dossier archivé 28
Depuis le début des années 2000, la Bibliothèque nationale de France opère une sauvegarde des sites Web français. Dans le cadre de sa mission de dépôt légal de l’internet, elle est ainsi chargée par le législateur de collecter un échantillon représentatif du « Web français », au moyen de robots « moissonneurs » fonctionnant pour la plupart avec des logiciels libres.

bnf 

La collecte des sites s’est même élargie aux réseaux sociaux comme Facebook ou Twitter, qui sont par exemple particulièrement observés durant les périodes électorales, comme nous l’évoquions il y a quelques semaines. Grâce aux milliards de pages qu’elle a accumulées, la BNF dispose désormais d’une collection d’archives de plus de 250 Téraoctets, qui ne cesse de s’accroître au fil du temps. La BNF a présenté ses archives du Web à PC INpact, et nous vous proposons un dossier sur ce sujet.

« En avril dernier, la Bibliothèque nationale de France (BNF) annonçait qu’elle allait effectuer une collecte des sites Internet impliqués dans les campagnes présidentielles et législatives de 2012, de la même manière qu’en 2002 et 2007(voir notre article).

Cette opération ponctuelle de capture de milliers de pages rentre dans le cadre des missions dévolues au dépôt légal de l’internet, qui sauvegarde depuis plusieurs années le Web français à des fins de conservation et de valorisation du patrimoine national. Clément Oury, responsable du dépôt légal de l’internet à la BNF, nous a reçu pour nous présenter de manière plus détaillée son fonctionnement. »

Publiée le 14/06/2012 à 17:49
Publicité