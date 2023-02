Corentin Barreau est ingénieur logiciel, archiviste pour le projet Internet Archive, travaillant sur la Wayback Machine. Il a rejoint l’organisme à but non lucratif il y a un peu moins de trois ans, alors qu’il était encore étudiant. Mais il avait déjà une longue liste de projets d’archivage à son actif.

« J’ai envoyé un message sur Twitter pour savoir s’il y avait de la place, on m’a dit oui. Une semaine après avoir commencé, j’ai arrêté mes études, j’avais 19 ans [...] Je m’occupe de récupérer ce qui arrive dans la Wayback Machine. J’opère des crawls à large échelle pour essayer de récupérer des données », nous explique-t-il.

Sujet d’actualité, nous lui demandons si les événements de ces derniers mois (crise sanitaire, explosion des réseaux sociaux, fake news...) ont eu des effets tangibles sur les questions d’archivage. Sans surprise la réponse est oui : « Cela nous a rappelé violemment qu’il est important d’archiver le web et ce qu’il se dit sur les médias, les réseaux, notamment avant l’élection présidentielle » de 2020, avec la victoire Joe Biden sur Donald Trump.

L’occasion pour nous d’évoquer un autre projet (collaboratif) de l’association : End of Term. Comme son nom l’indique, il « vise à préserver la présence sur le web du gouvernement fédéral américain à chaque changement d’administration. Le contenu comprend des sites gouvernementaux accessibles au public hébergé sur .gov, .mil et des domaines pertinents autres qu’en .gov, ainsi que des documents des réseaux sociaux gouvernementaux », peut-on lire sur sa page de présentation.

« Les crawls sont faits avant et après les élections », nous précise Corentin Barreau. Durant la présidence de Trump, ce travail d’archiviste a dû être fait « non pas à la fin du mandat mais tout le long », car ces quatre années furent mouvementées... c’est le moins que l’on puisse dire. Notamment avec le bannissement du président des États-Unis de Facebook et Twitter (entre autres) suite à l’invasion du Capitole et aux violences qui en ont découlé. « Je n’étais pas là avant, mais je pense que ça a pris beaucoup d’importance sous Donald Trump », reconnait d’ailleurs l’ingénieur.

Archive vs scraping

Dans un autre registre, nous lui demandons si le barrage fait par certains sites aux robots n’est pas problématique pour le travail d’archivage. Il nous répond que ce choix reste minoritaire, mais constitue tout de même un problème. « Les anti-robots ont pris de l’importance ces dernières années parce qu’à côté de l’archivage, il y a tout le mouvement des sociétés qui font du scraping [extraire tout le contenu d’un site, ndlr] à des fins industrielles, pour récupérer des informations et les utiliser ».

Internet Archive est surtout un dommage collatéral car « généralement, les sites ne sont pas anti-archivage [...] On a rarement de l’hostilité directe, ce sont des sites qui sont anti-scraping parce qu’ils ne veulent pas que leurs données soient récupérées par des concurrents à grande échelle, et du coup on paye les frais de cette situation car on utilise à peu près les mêmes techniques, on accède aux pages de manière informatisée ».

Un autre problème concerne les « pages qui sont de plus en plus dynamiques », avec du JavaScript par exemple. « Du coup c’est un peu plus compliqué parfois pour nous à archiver ». Il y a également la question des paywalls qui empêchent d’accéder à l’entièreté des contenus d’information.

Mais avec un peu de bonne volonté de part et d’autre cela peut fonctionner : « Cela arrive d’avoir des sites avec lesquels il y a des discussions et cela mène parfois à de belles choses avec une collaboration entre les deux ».

1 milliard de pages archivées… chaque jour