Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Pour explorer le web, l'Internet Archive songe à ignorer les fichiers Robots.txt

La Wayback Machine grippée
Internet 3 min
Pour explorer le web, l'Internet Archive songe à ignorer les fichiers Robots.txt
Crédits : wundervisuals/iStock

Pour l'Internet Archive, les fichiers Robots.txt sont devenus un frein à la bonne indexation du web. Une partie des sites deviendraient inaccessibles dans sa base de données suite à un changement de leurs directives pour les moteurs de recherche. Pour continuer son travail, elle explore l'idée de ne plus en tenir compte.

L'Internet Archive, l'organisation qui ambitionne d'archiver l'ensemble du web, réfléchit à ne plus tenir compte des fichiers Robots.txt. Pour mémoire, ces derniers permettent aux sites d'indiquer aux moteurs de recherche quoi indexer et quoi laisser de côté, par exemple pour éviter des doublons ou protéger des sous-dossiers sensibles, même si leur respect est facultatif. Dernièrement, la SNCF a utilisé le sien pour masquer des e-billets, sinon affichés sur les moteurs.

S'ils ont leur utilité, ces fichiers posent bien problème à l'Internet Archive, qui affirme qu'ils mèneraient à la désindexation complète de certains sites par son outil. La raison : « une recrudescence » de l'exclusion de noms de domaine entiers lorsqu'ils ne sont plus utilisés, voire mis en domain parking. La conséquence est que l'ensemble des contenus liés dans Internet Archive devient inaccessible, l'outil appliquant rétroactivement la mesure.

Une mesure radicale déjà (parfois) appliquée

 

« Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage » écrit l'équipe. Elle rappelle que son but est de créer des images instantanées du web, doublons et fichiers larges (parfois exclus des recherches) compris. En parallèle, elle affirme recevoir des plaintes quotidiennes à propos de sites disparus de la Wayback Machine, parce qu'abandonnés, donc exclus des moteurs de recherche.

En décembre, l'organisation a déjà commencé à ignorer les Robots.txt de sites gouvernementaux et militaires américains (finissant en .gov et .mil), en supprimant tout de même des contenus signalés. Cette démarche avait déjà été appliquée lors des captures de fin de mandat présidentiel (en 2008, 2012 et 2016), sans complainte de la part des autorités américaines, affirme Internet Archive.

La discussion en soi n'est donc pas nouvelle, des internautes débattant du sujet depuis au moins cinq ans.

Les services qui ignorent ces fameux fichiers semblent encore rares. L'un d'eux est Archive Team, un collectif s'attelant à archiver des pans du web a priori oubliés par d'autres. Sur son wiki, l'équipe affirme explicitement ne pas tenir compte des directives des sites en matière d'indexation, avec pour seule exception les occurrences où l'accès à un lien par un robot déclenche des effets néfastes (suppression du contenu, surcharge du site, etc.).

Vers un respect granulaire du Robots.txt ?

Internet Archive veut voir le web comme un internaute, pas comme un moteur de recherche. Pour l'organisation, les deux champs de vision se sont éloignés via l'évolution des fichiers Robots.txt, excluant de plus en plus d'éléments au fil des ans.

Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service. Une piste alternative remontée par plusieurs internautes, notamment en commentaire du billet ou sur Hacker News, est de respecter les choix d'indexation au moment du crawl.

En clair, si un site indexé depuis dix ans interdit l'archivage en 2017, Internet Archive conserverait les anciennes versions, en arrêtant d'en archiver de nouvelles. L'équipe d'Internet Archive n'a pas encore répondu à cette proposition.

60 commentaires
Avatar de LostSoul Abonné
Avatar de LostSoulLostSoul- 24/04/17 à 12:52:47

Si on a créé ces fichiers, c'est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots ... c'te blague

Avatar de 127.0.0.1 INpactien
Avatar de 127.0.0.1127.0.0.1- 24/04/17 à 12:54:59

"Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage"

Et, bien sur, leur optique personnelle l'emporte sur la volonté de l'auteur du "Robots.txt".

Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service.

Tu m'étonnes. Va falloir créer un nouveau standard "NoArchives.txt" ? Ah, ca existe déjà (balise "meta").

Avatar de Charly32 Abonné
Avatar de Charly32Charly32- 24/04/17 à 12:57:36

LostSoul a écrit :

Si on a créé ces fichiers, c'est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots ... c'te blague

Certes, mais les robots remplissent des tâches différentes. A la base, c'est surtout pour les moteurs de recherche, afin qu'ils ne scannent que ce qui est pertinent sur le site et éviter de pourrir le budget de crawl.
Or ici le but est de faire une "photo" du site à une date t, pas de soumettre le site à une indexation pour une éventuelle recherche.
Forcement, prendre la décision d'ignorer le robots.txt est une décision lourde de conséquences. Mais bon, comme le "do not track", cette barrière n'engage que ceux qui la respectent.

Avatar de PtiDidi Abonné
Avatar de PtiDidiPtiDidi- 24/04/17 à 12:57:47

Même si je comprends le soucis, je ne pense pas que ce soit une bonne idée.

Les archiveurs ne parcourent pas les sites web comme
le ferait des utilisateurs mais comme les moteurs d'indéxations donc vouloir archiver le web tel que le voit un utilisateur est mal parti (enfin depuis quelques temps c'est plus la bonne manière de faire)

Il y a un User-Agent special archiveur?

Avatar de vince120 Abonné
Avatar de vince120vince120- 24/04/17 à 13:06:35

Je trouve que sans pour autant ignorer le robots.txt, arrêter de l'appliquer rétroactivement permettrait déjà de limiter la casse...

Avatar de Drepanocytose INpactien
Avatar de DrepanocytoseDrepanocytose- 24/04/17 à 13:20:20

Pourquoi cette volonté d'archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s'arroge le droit de l'archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme "mission"...

On dirait des putains de mormons, les mecs, qui archivent les données d'État civil de toute la population mondiale...

Avatar de numerid Abonné
Avatar de numeridnumerid- 24/04/17 à 13:28:51

Mais si j'ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.
Ce genre de procédé est inquiétant.

Avatar de numerid Abonné
Avatar de numeridnumerid- 24/04/17 à 13:30:38

Et, accessoirement, si je puis dire. Qui est Internet Archive, qui est derrière tout ça ? De quel droit archivent-ils nos sites ?

Avatar de Aqua-Niki INpactien
Avatar de Aqua-NikiAqua-Niki- 24/04/17 à 13:32:29

Il n'y a pas d'autres moyens de bloquer l'accès à des portions de sites ? Parce que compter sur la bonne fois des bots pour respecter robots.txt, c'est un peu léger comme sécurité non ?

Avatar de numerid Abonné
Avatar de numeridnumerid- 24/04/17 à 13:35:55

C'est-à-dire que je me demande où ils vont leurs saletés de robots et ce qu'ils fonts justement.

Il n'est plus possible de commenter cette actualité.
Page 1 / 6