Pour explorer le web, l'Internet Archive songe à ignorer les fichiers Robots.txt

La Wayback Machine grippée 60
Accès libre
image dediée
Crédits : wundervisuals/iStock
Web
Par
le lundi 24 avril 2017 à 14:38
Guénaël Pépin

Pour l'Internet Archive, les fichiers Robots.txt sont devenus un frein à la bonne indexation du web. Une partie des sites deviendraient inaccessibles dans sa base de données suite à un changement de leurs directives pour les moteurs de recherche. Pour continuer son travail, elle explore l'idée de ne plus en tenir compte.

L'Internet Archive, l'organisation qui ambitionne d'archiver l'ensemble du web, réfléchit à ne plus tenir compte des fichiers Robots.txt. Pour mémoire, ces derniers permettent aux sites d'indiquer aux moteurs de recherche quoi indexer et quoi laisser de côté, par exemple pour éviter des doublons ou protéger des sous-dossiers sensibles, même si leur respect est facultatif. Dernièrement, la SNCF a utilisé le sien pour masquer des e-billets, sinon affichés sur les moteurs.

S'ils ont leur utilité, ces fichiers posent bien problème à l'Internet Archive, qui affirme qu'ils mèneraient à la désindexation complète de certains sites par son outil. La raison : « une recrudescence » de l'exclusion de noms de domaine entiers lorsqu'ils ne sont plus utilisés, voire mis en domain parking. La conséquence est que l'ensemble des contenus liés dans Internet Archive devient inaccessible, l'outil appliquant rétroactivement la mesure.

Une mesure radicale déjà (parfois) appliquée

« Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage » écrit l'équipe. Elle rappelle que son but est de créer des images instantanées du web, doublons et fichiers larges (parfois exclus des recherches) compris. En parallèle, elle affirme recevoir des plaintes quotidiennes à propos de sites disparus de la Wayback Machine, parce qu'abandonnés, donc exclus des moteurs de recherche.

En décembre, l'organisation a déjà commencé à ignorer les Robots.txt de sites gouvernementaux et militaires américains (finissant en .gov et .mil), en supprimant tout de même des contenus signalés. Cette démarche avait déjà été appliquée lors des captures de fin de mandat présidentiel (en 2008, 2012 et 2016), sans complainte de la part des autorités américaines, affirme Internet Archive.

La discussion en soi n'est donc pas nouvelle, des internautes débattant du sujet depuis au moins cinq ans.

Les services qui ignorent ces fameux fichiers semblent encore rares. L'un d'eux est Archive Team, un collectif s'attelant à archiver des pans du web a priori oubliés par d'autres. Sur son wiki, l'équipe affirme explicitement ne pas tenir compte des directives des sites en matière d'indexation, avec pour seule exception les occurrences où l'accès à un lien par un robot déclenche des effets néfastes (suppression du contenu, surcharge du site, etc.).

Vers un respect granulaire du Robots.txt ?

Internet Archive veut voir le web comme un internaute, pas comme un moteur de recherche. Pour l'organisation, les deux champs de vision se sont éloignés via l'évolution des fichiers Robots.txt, excluant de plus en plus d'éléments au fil des ans.

Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service. Une piste alternative remontée par plusieurs internautes, notamment en commentaire du billet ou sur Hacker News, est de respecter les choix d'indexation au moment du crawl.

En clair, si un site indexé depuis dix ans interdit l'archivage en 2017, Internet Archive conserverait les anciennes versions, en arrêtant d'en archiver de nouvelles. L'équipe d'Internet Archive n'a pas encore répondu à cette proposition.


chargement
Chargement des commentaires...