Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt

Le 24 Avril 2017 à 12:38

Abonnez-vous pour tout dévorer et ne rien manquer.

Abonnez-vous

Pour l'Internet Archive, les fichiers Robots.txt sont devenus un frein à la bonne indexation du web. Une partie des sites deviendraient inaccessibles dans sa base de données suite à un changement de leurs directives pour les moteurs de recherche. Pour continuer son travail, elle explore l'idée de ne plus en tenir compte.

L'Internet Archive, l'organisation qui ambitionne d'archiver l'ensemble du web, réfléchit à ne plus tenir compte des fichiers Robots.txt. Pour mémoire, ces derniers permettent aux sites d'indiquer aux moteurs de recherche quoi indexer et quoi laisser de côté, par exemple pour éviter des doublons ou protéger des sous-dossiers sensibles, même si leur respect est facultatif. Dernièrement, la SNCF a utilisé le sien pour masquer des e-billets, sinon affichés sur les moteurs.

S'ils ont leur utilité, ces fichiers posent bien problème à l'Internet Archive, qui affirme qu'ils mèneraient à la désindexation complète de certains sites par son outil. La raison : « une recrudescence » de l'exclusion de noms de domaine entiers lorsqu'ils ne sont plus utilisés, voire mis en domain parking. La conséquence est que l'ensemble des contenus liés dans Internet Archive devient inaccessible, l'outil appliquant rétroactivement la mesure.

Une mesure radicale déjà (parfois) appliquée

« Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage » écrit l'équipe. Elle rappelle que son but est de créer des images instantanées du web, doublons et fichiers larges (parfois exclus des recherches) compris. En parallèle, elle affirme recevoir des plaintes quotidiennes à propos de sites disparus de la Wayback Machine, parce qu'abandonnés, donc exclus des moteurs de recherche.

En décembre, l'organisation a déjà commencé à ignorer les Robots.txt de sites gouvernementaux et militaires américains (finissant en .gov et .mil), en supprimant tout de même des contenus signalés. Cette démarche avait déjà été appliquée lors des captures de fin de mandat présidentiel (en 2008, 2012 et 2016), sans complainte de la part des autorités américaines, affirme Internet Archive.

La discussion en soi n'est donc pas nouvelle, des internautes débattant du sujet depuis au moins cinq ans.

Les services qui ignorent ces fameux fichiers semblent encore rares. L'un d'eux est Archive Team, un collectif s'attelant à archiver des pans du web a priori oubliés par d'autres. Sur son wiki, l'équipe affirme explicitement ne pas tenir compte des directives des sites en matière d'indexation, avec pour seule exception les occurrences où l'accès à un lien par un robot déclenche des effets néfastes (suppression du contenu, surcharge du site, etc.).

Vers un respect granulaire du Robots.txt ?

Internet Archive veut voir le web comme un internaute, pas comme un moteur de recherche. Pour l'organisation, les deux champs de vision se sont éloignés via l'évolution des fichiers Robots.txt, excluant de plus en plus d'éléments au fil des ans.

Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service. Une piste alternative remontée par plusieurs internautes, notamment en commentaire du billet ou sur Hacker News, est de respecter les choix d'indexation au moment du crawl.

En clair, si un site indexé depuis dix ans interdit l'archivage en 2017, Internet Archive conserverait les anciennes versions, en arrêtant d'en archiver de nouvelles. L'équipe d'Internet Archive n'a pas encore répondu à cette proposition.

Commentaires (60)

LostSoul Abonné

Le 24/04/2017 à 12h52

Si on a créé ces fichiers, c’est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots … c’te blague

127.0.0.1

Le 24/04/2017 à 12h54

“Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d’archivage”

Et, bien sur, leur optique personnelle l’emporte sur la volonté de l’auteur du “Robots.txt”.

Il reste qu’ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l’archivage par le service.

Tu m’étonnes. Va falloir créer un nouveau standard “NoArchives.txt” ? Ah, ca existe déjà (balise “meta”).

Charly32

Le 24/04/2017 à 12h57

LostSoul a écrit :

Si on a créé ces fichiers, c’est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots … c’te blague

Certes, mais les robots remplissent des tâches différentes. A la base, c’est surtout pour les moteurs de recherche, afin qu’ils ne scannent que ce qui est pertinent sur le site et éviter de pourrir le budget de crawl.

Or ici le but est de faire une “photo” du site à une date t, pas de soumettre le site à une indexation pour une éventuelle recherche.

Forcement, prendre la décision d’ignorer le robots.txt est une décision lourde de conséquences. Mais bon, comme le “do not track”, cette barrière n’engage que ceux qui la respectent.

PtiDidi Abonné

Même si je comprends le soucis, je ne pense pas que ce soit une bonne idée.

Les archiveurs ne parcourent pas les sites web comme

le ferait des utilisateurs mais comme les moteurs d’indéxations donc vouloir archiver le web tel que le voit un utilisateur est mal parti (enfin depuis quelques temps c’est plus la bonne manière de faire)

Il y a un User-Agent special archiveur?

vince120 Abonné

Le 24/04/2017 à 13h06

Je trouve que sans pour autant ignorer le robots.txt, arrêter de l’appliquer rétroactivement permettrait déjà de limiter la casse…

Anonyme_f7d8f7f164fgnbw67p

Le 24/04/2017 à 13h20

Pourquoi cette volonté d’archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s’arroge le droit de l’archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme “mission”…

On dirait des putains de mormons, les mecs, qui archivent les données d’État civil de toute la population mondiale…

numerid Abonné

Le 24/04/2017 à 13h28

Mais si j’ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.

Ce genre de procédé est inquiétant.

Le 24/04/2017 à 13h30

Et, accessoirement, si je puis dire. Qui est Internet Archive, qui est derrière tout ça ? De quel droit archivent-ils nos sites ?

Aqua-Niki

Le 24/04/2017 à 13h32

Il n’y a pas d’autres moyens de bloquer l’accès à des portions de sites ? Parce que compter sur la bonne fois des bots pour respecter robots.txt, c’est un peu léger comme sécurité non ?

Le 24/04/2017 à 13h35

#10

C’est-à-dire que je me demande où ils vont leurs saletés de robots et ce qu’ils fonts justement.

Mearwen

Le 24/04/2017 à 13h39

#11

Tout simplement parce que la publication d’un site est une communication publique  (équivalent à la publication d’un journal ) et par là même son  archivage n’est plus sous le contrôle de son auteur.

Liara T'soni

Le 24/04/2017 à 13h41

#12

Charly32 a écrit :

Forcement, prendre la décision d’ignorer le robots.txt est une décision lourde de conséquences. Mais bon, comme le “do not track”, cette barrière n’engage que ceux qui la respectent.

Je me suis toujours dit que tout ce que changeait ce fichier, c’est un bool dans la bdd des moteurs pour ne pas afficher telle ou telle page.

cacadenez Abonné

Le 24/04/2017 à 13h44

#13

Et comme certains (dont moi) utilisent un honeypot pour bannir les IP de ceux qui se rendent sur une entrée spécifique du robots.txt, là, au moins vraiment tout le site sera non accessible.

#14

Si tu veux pas qu’il soit disponible/consultable/archivée  ne les met pas sur un site en accès libre…

Vekin

#15

Exactement. Si tu ne veux pas qu’une information soit archivée, copiée partout, ben tu ne la publies pas. Ou tu restreints l’accès aux seuls utilisateurs identifiés (ce qui n’empêche pas la copie par l’un d’eux par contre).

Quand je tombe sur une page que j’avais gardée en favori qui n’existe plus, je suis bien content d’avoir IA pour m’aider à y accéder à nouveau " />

Le 24/04/2017 à 13h50

#16

Ben s’ils ignorent robots.txt, partout où l’accès est libre ^^

Après, comme déjà dit par d’autres, si tu publies sur internet en accès libre et gratuit, il ne faut pas s’étonner que ton contenu puisse être réutilisé… C’est à toi de sécuriser ton site et tes contenus si tu veux éviter ça.

Le 24/04/2017 à 13h52

#17

Je me pose notamment des questions sur mon extranet. Il est sécurisé, mais bon.

Si ce machin veut récupérer ce qui est marqué comme non indexé, il va s’arrêter où ensuite ? C’est la question.

Le 24/04/2017 à 13h57

#18

Pour moi une communication au public est différent d’un archivage.

Là en gros, un mec te suit dans la rue avec un micro (c’est public, il a le droit)

Et il se plaint “non mais parle plus fort là on entend pas bien”

Pour moi il y a bien un soucis..

Le 24/04/2017 à 13h58

#19

Il n’y a pas de question, il ne s’arrête pas :)

Neliger Abonné

Le 24/04/2017 à 13h59

#20

J’exclu explicitement d’Archive, ce n’est pas pour que ce soit ignoré Oo

Wawet76

#21

Prendre en compte le robots.txt au moment du crawl, comme indiqué en bas de l’article, me parait tellement évident que je ne comprends pas le choix actuel d’Internet Archive (supprimer le contenu passé a cause d’une directive récente)

Le 24/04/2017 à 14h00

#22

Ben voilà :-) d’où problème.

piwi82

Le 24/04/2017 à 14h02

#23

Comme le fichier robots.txt n’a aucune valeur légale, de plus en plus d’organismes passent outre pour aspirer toutes les données disponibles.

D’ailleurs, certains le font depuis quelques années déjà, comme la BNF.

La meilleure parade que j’ai trouvée est d’utiliser une liste blanche sur un pare-feu. Dans le cas de la BNF, j’ai dû blacklister un partie du range Renater concerné.

Le 24/04/2017 à 14h04

#24

Pour moi il y a une différence entre la ré-utilisation d’une publication et le fait que l’archiveur se plaigne alors qu’il n’utilise pas le bon outil.

Il veut archiver le web tel qu’un utilisateur le voit? Il n’a qu’à utiliser un crawler qui n’utilise que les liens visible sur une page web.

Sinon il fleurira des honey-pots partout, et il (re)viendra se plaindre parce qu’il n’arrive pas à remplir sa “mission”.

tpeg5stan

Le 24/04/2017 à 14h06

#25

C’est des militants de l’UPR " />

nan, je déconne, c’est une fondation californienne à but non lucratif qui vise à “préserver la connaissance humaine” (au sens large, je crois bien).&nbsphttps://fr.wikipedia.org/wiki/Internet_Archive

ArchangeBlandin Abonné

Le 24/04/2017 à 14h08

#26

Je suis comme toi, je ne comprends pas le problème.

Ils ont utilisé une règle qui est inadaptée : prendre le robots.txt et l’appliquer sur les anciennes indexations, alors qu’ils devraient juste ne pas faire une nouvelle image quand ils trouvent une nouvelle directive dans le fichier.

L’historique est conservé, et du coup, leur objectif atteint…

Le 24/04/2017 à 14h09

#27

Mearwen a écrit :

Tout simplement parce que la publication d’un site est une communication publique  (équivalent à la publication d’un journal ) et par là même son  archivage n’est plus sous le contrôle de son auteur.

Mais sa remise en publication devrait l’être, une fois que ton site est contrairement down ou demandé explicitement a ne pas être archivé…

D’ailleurs, IA, ça ne ga pas à l’encontre direct du droit a l’oubli ?

manus Abonné

Le 24/04/2017 à 14h12

#28

www = World Wide Web != mWW My Wide Web

WAN != LAN

…

Tu publies tu prends le risque de cela.

Faut savoir que ce qui est diffusé  à la télé/radio/… publique est entièrement archivé et plusieurs fois…

#29

Oui c’est une convention, et c’est utile.

Si tout le monde passe outre; il fleurira des solutions qui nuiront aux indésirables en premier lieu mais aussi au fur-et-à-mesure aux internautes.

Ban du User-agent “bot” puis honeypot puis firewall => au final les moteurs de recherches ne seront plus utiles, les internautes seront bien contents " />

Le 24/04/2017 à 14h14

#30

manus a écrit :

www = World Wide Web != mWW My Wide Web

WAN != LAN

…

Tu publies tu prends le risque de cela.

Faut savoir que ce qui est diffusé  à la télé/radio/… publique est entièrement archivé et plusieurs fois…

Oui, mais est ce que les archives TV, radio, etc, sont publiquement accessibles, comme IA ?

ike

Le 24/04/2017 à 14h17

#31

L’interet d’archiver des données, publications en ligne, presse est d’offrir un reflet du sujet et de la faon dont il était traité pour les chercheurs d’une période donnée.

L’interet est le même que celui que l’on porte sur les archives papiers.

Et c’est parce que on a des gens qui ont décider d’archiver et stocker ces données que l’on arrive à comprendre certaines civilization ou période de civilization aujourd’hui.

#32

Le problème, cest pas le risque pris, c’est qu’un organisme qui veut “préserver la connaissance humaine” se permette de dire “non mais les gens qui ne veulent pas que l’on préserve leur connaissance sont relous”

Ils font une connerie en ne faisant pas une vraie image à un instant t vu qu’ils appliquent le nouveau robots.txt sur les anciennes versions.

Ils se trompent de problème, voila tout

Le 24/04/2017 à 14h20

#33

Oui, les archives sont généralement ouverte au publique. En fonction, des archives, certaines peuvent demandé une demande de dérogation. Certaines archives sont restreinte durant une certaines durée allant de quelque année à 100an.

Mais dans l’ensemble et en principe, les archives publiques sont accessible à tous.

Le 24/04/2017 à 14h22

#34

Oui à l’INA pour la partie Radiop/Télé.

A la BNF pour les publications écrites et web.

Nilav

Le 24/04/2017 à 14h24

#35

Wah, trop bien, ils vont archiver des pages de login et autre connerie du genre. Que c’est utile.

Le 24/04/2017 à 14h25

#36

numerid a écrit :

Mais si j’ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.

Ce genre de procédé est inquiétant.

Je ne pense pas que le problème soit les sites qui interdisent explicitement le robot d’archive.org, mais ceux qui ont un robots.txt optimisé pour la SEO qui va nuire au travail de celui d’archive.

Sinon, comme l’ont dit plusieurs iNpactiens avant moi, si la page est accessible publiquement, alors c’est prendre le risque qu’elle soit indexée par un crawler peu scrupuleux. Le Robot.txt n’est ni une obligation légale, ni technique, il s’agit juste d’un agrément. Les gros moteurs de recherche le respectent car ils savent qu’ils ont plus à gagner que de ne pas le respecter.

 

Drepanocytose a écrit :

Pourquoi cette volonté d’archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s’arroge le droit de l’archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme “mission”…

On dirait des putains de mormons, les mecs, qui archivent les données d’État civil de toute la population mondiale…

Et pourquoi pas ? Parfois le retrait d’un site est involontaire (une boite qui fait faillite par exemple) alors que le contenu du site peut encore intéresser des gens. Ça m’est déjà arrivé d’avoir recours au service de IA.

Si un éditeur arrête de publier un livre, ce dernier existera toujours dans les stocks des libraires, bibliothèques (privée ou publiques), l’ouvrage ne disparaitra pas du jour au lendemain.

Le 24/04/2017 à 14h28

#37

Dans un sens, oui.

Avec une simple page de login, tu obtiens également des informations sur les méthodes d’authentification d’une époque. Tu va commencer à t’apercevoir de l’émergence de l’OAuth par exemple.

 

Tu va également avoir des informations autour du design d’une époque. Et sur des éléments qui représente globalement la même chose donc un bon comparatif.

On peut déduire pas mal de chose à partir de quelque informations.

Il ne faut pas oublié que si on a réussi à déchiffrer certain langue en archéologie, c’est à partir de “livre de

 comptabilité”.

Le 24/04/2017 à 14h41

#38

Je n’ai pas dit qu’IA avait raison d’ignorer robots.txt. Je dis juste que compter sur le robots.txt (qu’aucun contrat n’oblige qui que ce soit à utiliser) pour éviter qu’un bot puisse accéder à des données qu’on a mises en accès libre c’est naïf.

Edit : ortho

Ne2l Abonné

Le 24/04/2017 à 15h07

#39

A ce moment la, un acces protégé par mdp/certificat/etc. est ce qu’il te faut.

Faut pas s’étonner que des contenus accessibles facilement se trouvent ailleurs que la ou ils ont été publiés.

Le 24/04/2017 à 15h13

#40

Ouais, c’est un peu etrange. L’application bete et mechante serait, pour moi, de ne pas indexer de nouveau contenu…

Jarodd Abonné

Le 24/04/2017 à 15h38

#41

Leur mission est louable, mais plutôt que réfléchir au contenu derrière un robots.txt ils feraient mieux de convenablement archiver ce qui est déjà archivable.

A chaque fois que je me suis servi de leur service, je n’ai pas trouvé

ce que je cherchais. Par exemple ils faisaient des snapshots d’un site

tous les 6 mois, alors qu’il y avait des publications tous les jours. Je

tombais sur la page d’accueil mais la navigation était impossible pour retrouver un article précis (IA

met son propre lien qui n’amène nulle part).

Yutani

Le 24/04/2017 à 16h01

#42

ils peuvent faire ce qu’ils veulent avec leur “robots” mais il ne faut surtout pas qu’ils ignorent le site de Jvachez " />

Le 24/04/2017 à 16h41

#43

Tu vois de la naïveté là où je vois un besoin de respect mutuel.

Pour moi, on peut faire un parallèle avec la publicité.

Trop d’espace dédié à de la pub => l’utilisateur la bloque.

les crawleurs veulent trop de données => le webmaster va les bloquer

C’est dommage :(

Le 24/04/2017 à 17h24

#44

Ben justement, en reprenant ton parallèle, espérer que le milieu de la publicité réagisse avant que les gens n’installent des bloqueurs, c’était naïf et on l’a bien vu : ça n’a pas beaucoup évolué, et le peu d’évolutions vient d’abord et surtout de sites comme NxI qui adopte une politique publicitaire propre et non des régies.

Ici, c’est pareil : si tu veux vraiment empêcher l’archivage (ou le parcours de ton site par des bots pour d’autres raisons), mieux vaut agir toi-même plutôt qu’espérer qu’on respecte le choix que tu as mis dans robots.txt.

Le 24/04/2017 à 17h34

#45

Yutani a écrit :

ils peuvent faire ce qu’ils veulent avec leur “robots” mais il ne faut surtout pas qu’ils ignorent le site de Jvachez " />

" /> On devrait l’inscrire au patrimoine mondial des internets celui la!

Le 24/04/2017 à 17h50

#46

Aqua-Niki a écrit :

espérer que le milieu de la publicité réagisse avant que les gens n’installent des bloqueurs, c’était naïf

Je vois la chose autrement. Selon moi il aurait fallu que les régies ne soient pas gourmandes

En gros tu parles de mettre des limites dames le débuts alors que je parle de faire confiance pour ensuite sanctionner en cas d’abus

Les limites dès le début, ca ne marche pas de toute manière. Tu ne peux pas tout prévoir

Le 24/04/2017 à 17h51

#47

Bref, “Internet Archive” a le droit de faire ce qu’il veut parce qu’il est gentil et que ses intentions sont nobles.

Et puis un jour on découvrira que…

zefling Abonné

Le 24/04/2017 à 19h39

#48

Je fais des sites depuis 18 ans, et je comprends un peu leur problème. Et dans un sens, le problème du robot.txt vient surtout qu’on publie en public des données privées, avec des jetons directement dans l’URL, ce qui n’a rien de sécurisé.

Perso, le robot.txt, je m’en tape un peu, je l’utilise surtout pour limiter robot dans le but de soulager mon serveur. C’est plus dire : « Ne viens pas ici, tu ne va trouver que des 403 (droits d’accès insuffisants) ». Ce qui ne doit pas être vu ne le sera pas, même si le robot.txt est nié.

Normalement, si tu utilises le robot.txt pour te protéger, c’est que t’as la pire protection existante : aucune. Tu prends le risque que des données publiques soient exposées par n’importe quoi ou n’importe qui. Et après, on se retrouve avec article d’entreprises dans des situations risibles et dramatiques. J’ai déjà vécu ça : le SVN d’une boîte qui se retrouve sur Google.

Maintenant pour en revenir au problème de Indexeur (ex Google) vs Archiveur (ex IA) :

1/ si un Indexeur voir un robot.txt qui lui dit : « maintenant tu me retires tout ça, parce que c’était une erreur. » Il va tout virer dans les jours qui suivent. Ça peut être complètement légitime, on a fait une connerie, on l’a réparé, mais le cache des moteurs de recherche subsistant est encore gênant. 2/Mais ça peut aussi venir d’un changement du propriétaire ou d’une nouvelle version d’un site : « maintenant, j’ai un nouveau site, oublie tout ce qui se rapporte à l’ancien ». L’Indexeur va dégager tout ce qui lui ait demandé.

si un Archiveur passe, on se place dans le cas 1/ si comporte comme l’Indexeur c’est cool, parce qu’il parfois compliqué de dire la période à virer, ce dernier supprime tout. Par contre, s’il se place dans le cas 2/ c’est beaucoup moins cool, les archives de l’ancienne version on peut-être un intérêt « historique ». C’était public et il y avait peut-être de l’information utile.

Bref, le robot.txt ne donne pas de plage temporelle. Donc, c’est : on supprime tout ou rien. Impossible de dire si c’est depuis le nouveau robot.txt puisque le nouveau a peut-être était là pour supprimer quelque chose qui est soit légitime ou illégitime. Le respecter c’est prendre le risque de perdre des données, ne pas le respecter c’est prendre le risque d’avoir des données illégitimes et même le respecter à partir des changements de règles.

Pour moi, le choix ne peut pas être le même qu’un Indexeur qui se fout de ce qui n’existe plus, et je ne saurais dire quel est le meilleur choix.

psn00ps

Le 24/04/2017 à 21h05

#49

Si tu veux de la sécurité, cela n’a rien à voir avec robots.txt.

Il est optionnel depuis sa création.

bohwaz Abonné

Le 24/04/2017 à 23h00

#50

Je comprends pas l’opposition à IA, ils font un boulot formidable qui permet de récupérer le contenu de sites qui disparaissent, ou quand les sites changent leurs URLs, et préserver des infos intéressantes pour l’avenir.

Ça me paraît normal d’ignorer le robots.txt (perso mon crawler de RSS n’en a rien à foutre du robots.txt, utilise des IP aléatoires et un user agent type Chrome/Firefox dernière version, et si l’accès au site ne marche pas sans JS il récupère la page avec webkit directement, donc aucun moyen de l’empêcher de faire son boulot), ne serait-ce que parce qu’il contient souvent n’importe quoi, et qu’il empêcherait sinon d’archiver des infos utiles qu’on a besoin de récupérer ensuite.

Merci à IA en tout cas :)

lordofkill

Le 25/04/2017 à 02h10

#51

Je visitais de vieux site mais a cause d’un robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive

Deplus archive.org est un archiveur il ne permet pas la recherche des site archivé se qui est différent des moteur de recherche qui permet de fouiller la vie privé , ce qui a été trop souvent le cas 

Archive.org permet de fouillé des version antérieur d’un site web tel un musée archive des vieux livre 

A noté que archive.org est reconnu en temps que musée donc certaine loi ne s’applique.

Ph11

Le 25/04/2017 à 07h33

#52

En soi, ce serait une violation de la vie privée.

Qu’ils le fassent et ils se prendront un gros procès sur le dos.

Le 25/04/2017 à 11h03

#53

lordofkill a écrit :

Je visitais de vieux site mais a cause d’un de la politique de Internet Archive d’appliquer rétro-activement le robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive

 
fixed   
En gros, en appliquant le nouveau robots.txt, IA se donne le droit se modifier une version d’un site web; vive le musée.

Heureusement que la BNF ne modifie pas les anciennes éditions de bouquins quand une nouvelle plus politiquement correcte sort!

Le 25/04/2017 à 11h23

#54

PtiDidi a écrit :

Je visitais de vieux site mais a cause d’un de la politique de Internet Archive d’appliquer rétro-activement le robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive
fixed   
En gros, en appliquant le nouveau robots.txt, IA se donne le droit se modifier une version d’un site web; vive le musée.

Heureusement que la BNF ne modifie pas les anciennes éditions de bouquins quand une nouvelle plus politiquement correcte sort!

Il ne modifie pas, il supprime des archives tel que demandé par le robot.txt

Le 25/04/2017 à 13h00

#55

" />

Le robots.txt ne se préoccupe pas d’archivage hein!

Il ne demande pas de supprimer des archives, ca c’est le comportement adopté par IA qui est contraire au fait de “créer des images instantanées du web”.

Si ton image instantanée est modifiée à postériori, cest pas une instantanée..

Le robots.txt demande aux robots de ne pas indexer certaines parties d’un site.

C’est à la base du gagnant-gagnant vu que :

le webmaster choisit ce qu’il est pertinent d’indexer => gain en visibilité

le crawler n’indexe que ce qui est pertinent => gain en temps et en place

Le 25/04/2017 à 14h15

#56

Il y a une raison que le fichier robots.txt existe 

quand google a commencé a recherché les fichier en plus des page web , celui-ci a répertorié un nombre de fichier contenant des données sensible en 2004

Le robots.txt est parfois utilisé par abus par les webmasters mais il est vitale pour protégé aussi des données

Le 25/04/2017 à 15h10

#57

Relis le pavé que j’ai écris avant.

Et celui qui se sert du robot.txt pour la sécu n’aura que ce qu’il mérite.

Le 26/04/2017 à 14h39

#58

J’ai lu, et c’est bien tu exposes les faits clairement.

Oui, le robots.txt sert au webmaster afin le robots indexe les contenus pertinents sans parcourir toutes les pages et surcharger le serveur.

Non le robots.txt ne sert pas à faire de la sécurité ni à dire ‘ha ca c’était une erreur, supprime de ton cache’

Si tu veux supprimer des données d’un cache suite à une connerie, tu prends ton clavier à deux mains et tu contactes les gérant du-dit cache

Le 26/04/2017 à 14h44

#59

Protéger des données avec un robots.txt cest comme protéger son jardin avec un écriteau “propriété privé”.

Ca marche avec ceux qui respecte les règles, Cest pas de la sécurité pour autant.

La raison pour laquelle le robots.txt existe c’est d’avoir les contenus pertinents indéxés sans perdre de temps à parcourir le serveur entier.

Un robot qui ne respecte pas le robots.txt tombera dans un honeypot et n’indexera jamais le contenu pertinent.

Il passera sa vie à indexer des données random.. quel intérêt à cela?

Le 26/04/2017 à 14h50

#60

Je ne m’opose pas à eux, je m’oppose au choix qu’ils envisagent qui est mauvais.

Ignorer le robots.txt c’est prendre le risque de tomber dans un honeypots.. c’est pas comme ca que tu vas archiver des infos utiles.

Catégories

Nous suivre

À propos

Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt

Une mesure radicale déjà (parfois) appliquée

Vers un respect granulaire du Robots.txt ?

Sommaire de l'article

Introduction

Une mesure radicale déjà (parfois) appliquée

Vers un respect granulaire du Robots.txt ?

#Flock vous dit adieu

Plantage des Core i9 (13e et 14e gen) : réactions et recommandations officielles d’Intel

La vidéosurveillance dans les chambres des EHPAD réservée aux suspicions de maltraitance

Face à des résultats mitigés, Apple agite 110 milliards de dollars

Les écrans, du temps perdu pour les enfants ?

L’e-commerce européen pâtit de la concurrence de la fast fashion chinoise et du commerce social

App Store et sideloading : Apple revoit sa copie sur les commissions

Play2 : Sunology passe à 450 watts (jusqu’à 585 watts en bi-face) pour son kit solaire

55 ans d’AMD : des clones Intel au succès de Zen

Vidéosurveillance algorithmique : la Quadrature du Net dépose plainte devant la CNIL

Commentaires (60)