Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt

La Wayback Machine grippée

Pour l'Internet Archive, les fichiers Robots.txt sont devenus un frein à la bonne indexation du web. Une partie des sites deviendraient inaccessibles dans sa base de données suite à un changement de leurs directives pour les moteurs de recherche. Pour continuer son travail, elle explore l'idée de ne plus en tenir compte.

L'Internet Archive, l'organisation qui ambitionne d'archiver l'ensemble du web, réfléchit à ne plus tenir compte des fichiers Robots.txt. Pour mémoire, ces derniers permettent aux sites d'indiquer aux moteurs de recherche quoi indexer et quoi laisser de côté, par exemple pour éviter des doublons ou protéger des sous-dossiers sensibles, même si leur respect est facultatif. Dernièrement, la SNCF a utilisé le sien pour masquer des e-billets, sinon affichés sur les moteurs.

S'ils ont leur utilité, ces fichiers posent bien problème à l'Internet Archive, qui affirme qu'ils mèneraient à la désindexation complète de certains sites par son outil. La raison : « une recrudescence » de l'exclusion de noms de domaine entiers lorsqu'ils ne sont plus utilisés, voire mis en domain parking. La conséquence est que l'ensemble des contenus liés dans Internet Archive devient inaccessible, l'outil appliquant rétroactivement la mesure.

Une mesure radicale déjà (parfois) appliquée

« Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d'archivage » écrit l'équipe. Elle rappelle que son but est de créer des images instantanées du web, doublons et fichiers larges (parfois exclus des recherches) compris. En parallèle, elle affirme recevoir des plaintes quotidiennes à propos de sites disparus de la Wayback Machine, parce qu'abandonnés, donc exclus des moteurs de recherche.

En décembre, l'organisation a déjà commencé à ignorer les Robots.txt de sites gouvernementaux et militaires américains (finissant en .gov et .mil), en supprimant tout de même des contenus signalés. Cette démarche avait déjà été appliquée lors des captures de fin de mandat présidentiel (en 2008, 2012 et 2016), sans complainte de la part des autorités américaines, affirme Internet Archive.

La discussion en soi n'est donc pas nouvelle, des internautes débattant du sujet depuis au moins cinq ans.

Les services qui ignorent ces fameux fichiers semblent encore rares. L'un d'eux est Archive Team, un collectif s'attelant à archiver des pans du web a priori oubliés par d'autres. Sur son wiki, l'équipe affirme explicitement ne pas tenir compte des directives des sites en matière d'indexation, avec pour seule exception les occurrences où l'accès à un lien par un robot déclenche des effets néfastes (suppression du contenu, surcharge du site, etc.).

Vers un respect granulaire du Robots.txt ?

Internet Archive veut voir le web comme un internaute, pas comme un moteur de recherche. Pour l'organisation, les deux champs de vision se sont éloignés via l'évolution des fichiers Robots.txt, excluant de plus en plus d'éléments au fil des ans.

Il reste qu'ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l'archivage par le service. Une piste alternative remontée par plusieurs internautes, notamment en commentaire du billet ou sur Hacker News, est de respecter les choix d'indexation au moment du crawl.

En clair, si un site indexé depuis dix ans interdit l'archivage en 2017, Internet Archive conserverait les anciennes versions, en arrêtant d'en archiver de nouvelles. L'équipe d'Internet Archive n'a pas encore répondu à cette proposition.

Android 15 : la bêta 1.1 corrige plusieurs soucis, dont le NFC

09:01 0

Selon Jean-Noël Barrot, la France et l’Europe sont « pilonnés par la propagande de la Russie »

07:57 38

C’est la fin pour la marque Roccat, Turtle Beach prend le relai

07:43 5

Intelligence artificielle : Apple rachète la société française Datakalab

07:30 8

Proton Mail ajoute la surveillance du dark web à la recherche de fuites de données

07:05 2

La lutte contre les centres d’appels, une « priorité » de la cyberpolice ukrainienne

00:01 5

Commentaires (60)

LostSoul Abonné

Le 24/04/2017 à 12h 52

Si on a créé ces fichiers, c’est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots … c’te blague

127.0.0.1

Le 24/04/2017 à 12h 54

“Nous remarquons que les fichiers Robots.txt prévus pour les moteurs de recherche ne sont pas forcément utiles dans notre optique d’archivage”

Et, bien sur, leur optique personnelle l’emporte sur la volonté de l’auteur du “Robots.txt”.

Il reste qu’ignorer complètement les indications des responsables de sites est une décision importante, surtout quand certains excluent explicitement l’archivage par le service.

Tu m’étonnes. Va falloir créer un nouveau standard “NoArchives.txt” ? Ah, ca existe déjà (balise “meta”).

Charly32

Le 24/04/2017 à 12h 57

LostSoul a écrit :

Si on a créé ces fichiers, c’est JUSTEMENT pour rendre inaccessibles certaines portions de sites aux robots … c’te blague

Certes, mais les robots remplissent des tâches différentes. A la base, c’est surtout pour les moteurs de recherche, afin qu’ils ne scannent que ce qui est pertinent sur le site et éviter de pourrir le budget de crawl.

Or ici le but est de faire une “photo” du site à une date t, pas de soumettre le site à une indexation pour une éventuelle recherche.

Forcement, prendre la décision d’ignorer le robots.txt est une décision lourde de conséquences. Mais bon, comme le “do not track”, cette barrière n’engage que ceux qui la respectent.

PtiDidi Abonné

Même si je comprends le soucis, je ne pense pas que ce soit une bonne idée.

Les archiveurs ne parcourent pas les sites web comme

le ferait des utilisateurs mais comme les moteurs d’indéxations donc vouloir archiver le web tel que le voit un utilisateur est mal parti (enfin depuis quelques temps c’est plus la bonne manière de faire)

Il y a un User-Agent special archiveur?

vince120 Abonné

Le 24/04/2017 à 13h 06

Je trouve que sans pour autant ignorer le robots.txt, arrêter de l’appliquer rétroactivement permettrait déjà de limiter la casse…

Anonyme_f7d8f7f164fgnbw67p

Le 24/04/2017 à 13h 20

Pourquoi cette volonté d’archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s’arroge le droit de l’archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme “mission”…

On dirait des putains de mormons, les mecs, qui archivent les données d’État civil de toute la population mondiale…

numerid Abonné

Le 24/04/2017 à 13h 28

Mais si j’ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.

Ce genre de procédé est inquiétant.

Le 24/04/2017 à 13h 30

Et, accessoirement, si je puis dire. Qui est Internet Archive, qui est derrière tout ça ? De quel droit archivent-ils nos sites ?

Aqua-Niki

Le 24/04/2017 à 13h 32

Il n’y a pas d’autres moyens de bloquer l’accès à des portions de sites ? Parce que compter sur la bonne fois des bots pour respecter robots.txt, c’est un peu léger comme sécurité non ?

Le 24/04/2017 à 13h 35

#10

C’est-à-dire que je me demande où ils vont leurs saletés de robots et ce qu’ils fonts justement.

Mearwen

Le 24/04/2017 à 13h 39

#11

Tout simplement parce que la publication d’un site est une communication publique  (équivalent à la publication d’un journal ) et par là même son  archivage n’est plus sous le contrôle de son auteur.

Liara T'soni

Le 24/04/2017 à 13h 41

#12

Charly32 a écrit :

Forcement, prendre la décision d’ignorer le robots.txt est une décision lourde de conséquences. Mais bon, comme le “do not track”, cette barrière n’engage que ceux qui la respectent.

Je me suis toujours dit que tout ce que changeait ce fichier, c’est un bool dans la bdd des moteurs pour ne pas afficher telle ou telle page.

cacadenez Abonné

Le 24/04/2017 à 13h 44

#13

Et comme certains (dont moi) utilisent un honeypot pour bannir les IP de ceux qui se rendent sur une entrée spécifique du robots.txt, là, au moins vraiment tout le site sera non accessible.

#14

Si tu veux pas qu’il soit disponible/consultable/archivée  ne les met pas sur un site en accès libre…

Vekin

#15

Exactement. Si tu ne veux pas qu’une information soit archivée, copiée partout, ben tu ne la publies pas. Ou tu restreints l’accès aux seuls utilisateurs identifiés (ce qui n’empêche pas la copie par l’un d’eux par contre).

Quand je tombe sur une page que j’avais gardée en favori qui n’existe plus, je suis bien content d’avoir IA pour m’aider à y accéder à nouveau " />

Le 24/04/2017 à 13h 50

#16

Ben s’ils ignorent robots.txt, partout où l’accès est libre ^^

Après, comme déjà dit par d’autres, si tu publies sur internet en accès libre et gratuit, il ne faut pas s’étonner que ton contenu puisse être réutilisé… C’est à toi de sécuriser ton site et tes contenus si tu veux éviter ça.

Le 24/04/2017 à 13h 52

#17

Je me pose notamment des questions sur mon extranet. Il est sécurisé, mais bon.

Si ce machin veut récupérer ce qui est marqué comme non indexé, il va s’arrêter où ensuite ? C’est la question.

Le 24/04/2017 à 13h 57

#18

Pour moi une communication au public est différent d’un archivage.

Là en gros, un mec te suit dans la rue avec un micro (c’est public, il a le droit)

Et il se plaint “non mais parle plus fort là on entend pas bien”

Pour moi il y a bien un soucis..

Le 24/04/2017 à 13h 58

#19

Il n’y a pas de question, il ne s’arrête pas :)

Neliger Abonné

Le 24/04/2017 à 13h 59

#20

J’exclu explicitement d’Archive, ce n’est pas pour que ce soit ignoré Oo

Wawet76

#21

Prendre en compte le robots.txt au moment du crawl, comme indiqué en bas de l’article, me parait tellement évident que je ne comprends pas le choix actuel d’Internet Archive (supprimer le contenu passé a cause d’une directive récente)

Le 24/04/2017 à 14h 00

#22

Ben voilà :-) d’où problème.

piwi82

Le 24/04/2017 à 14h 02

#23

Comme le fichier robots.txt n’a aucune valeur légale, de plus en plus d’organismes passent outre pour aspirer toutes les données disponibles.

D’ailleurs, certains le font depuis quelques années déjà, comme la BNF.

La meilleure parade que j’ai trouvée est d’utiliser une liste blanche sur un pare-feu. Dans le cas de la BNF, j’ai dû blacklister un partie du range Renater concerné.

Le 24/04/2017 à 14h 04

#24

Pour moi il y a une différence entre la ré-utilisation d’une publication et le fait que l’archiveur se plaigne alors qu’il n’utilise pas le bon outil.

Il veut archiver le web tel qu’un utilisateur le voit? Il n’a qu’à utiliser un crawler qui n’utilise que les liens visible sur une page web.

Sinon il fleurira des honey-pots partout, et il (re)viendra se plaindre parce qu’il n’arrive pas à remplir sa “mission”.

tpeg5stan

Le 24/04/2017 à 14h 06

#25

C’est des militants de l’UPR " />

nan, je déconne, c’est une fondation californienne à but non lucratif qui vise à “préserver la connaissance humaine” (au sens large, je crois bien).&nbsphttps://fr.wikipedia.org/wiki/Internet_Archive

ArchangeBlandin Abonné

Le 24/04/2017 à 14h 08

#26

Je suis comme toi, je ne comprends pas le problème.

Ils ont utilisé une règle qui est inadaptée : prendre le robots.txt et l’appliquer sur les anciennes indexations, alors qu’ils devraient juste ne pas faire une nouvelle image quand ils trouvent une nouvelle directive dans le fichier.

L’historique est conservé, et du coup, leur objectif atteint…

Le 24/04/2017 à 14h 09

#27

Mearwen a écrit :

Tout simplement parce que la publication d’un site est une communication publique  (équivalent à la publication d’un journal ) et par là même son  archivage n’est plus sous le contrôle de son auteur.

Mais sa remise en publication devrait l’être, une fois que ton site est contrairement down ou demandé explicitement a ne pas être archivé…

D’ailleurs, IA, ça ne ga pas à l’encontre direct du droit a l’oubli ?

manus Abonné

Le 24/04/2017 à 14h 12

#28

www = World Wide Web != mWW My Wide Web

WAN != LAN

…

Tu publies tu prends le risque de cela.

Faut savoir que ce qui est diffusé  à la télé/radio/… publique est entièrement archivé et plusieurs fois…

#29

Oui c’est une convention, et c’est utile.

Si tout le monde passe outre; il fleurira des solutions qui nuiront aux indésirables en premier lieu mais aussi au fur-et-à-mesure aux internautes.

Ban du User-agent “bot” puis honeypot puis firewall => au final les moteurs de recherches ne seront plus utiles, les internautes seront bien contents " />

Le 24/04/2017 à 14h 14

#30

manus a écrit :

www = World Wide Web != mWW My Wide Web

WAN != LAN

…

Tu publies tu prends le risque de cela.

Faut savoir que ce qui est diffusé  à la télé/radio/… publique est entièrement archivé et plusieurs fois…

Oui, mais est ce que les archives TV, radio, etc, sont publiquement accessibles, comme IA ?

ike

Le 24/04/2017 à 14h 17

#31

L’interet d’archiver des données, publications en ligne, presse est d’offrir un reflet du sujet et de la faon dont il était traité pour les chercheurs d’une période donnée.

L’interet est le même que celui que l’on porte sur les archives papiers.

Et c’est parce que on a des gens qui ont décider d’archiver et stocker ces données que l’on arrive à comprendre certaines civilization ou période de civilization aujourd’hui.

#32

Le problème, cest pas le risque pris, c’est qu’un organisme qui veut “préserver la connaissance humaine” se permette de dire “non mais les gens qui ne veulent pas que l’on préserve leur connaissance sont relous”

Ils font une connerie en ne faisant pas une vraie image à un instant t vu qu’ils appliquent le nouveau robots.txt sur les anciennes versions.

Ils se trompent de problème, voila tout

Le 24/04/2017 à 14h 20

#33

Oui, les archives sont généralement ouverte au publique. En fonction, des archives, certaines peuvent demandé une demande de dérogation. Certaines archives sont restreinte durant une certaines durée allant de quelque année à 100an.

Mais dans l’ensemble et en principe, les archives publiques sont accessible à tous.

Le 24/04/2017 à 14h 22

#34

Oui à l’INA pour la partie Radiop/Télé.

A la BNF pour les publications écrites et web.

Nilav

Le 24/04/2017 à 14h 24

#35

Wah, trop bien, ils vont archiver des pages de login et autre connerie du genre. Que c’est utile.

Le 24/04/2017 à 14h 25

#36

numerid a écrit :

Mais si j’ai, sur mes sites, des portions que je ne veux pas voir dans les moteurs de recherche, ni archivés, ni quoique ce soit, il me semble que je suis parfaitement dans mon droit.

Ce genre de procédé est inquiétant.

Je ne pense pas que le problème soit les sites qui interdisent explicitement le robot d’archive.org, mais ceux qui ont un robots.txt optimisé pour la SEO qui va nuire au travail de celui d’archive.

Sinon, comme l’ont dit plusieurs iNpactiens avant moi, si la page est accessible publiquement, alors c’est prendre le risque qu’elle soit indexée par un crawler peu scrupuleux. Le Robot.txt n’est ni une obligation légale, ni technique, il s’agit juste d’un agrément. Les gros moteurs de recherche le respectent car ils savent qu’ils ont plus à gagner que de ne pas le respecter.

 

Drepanocytose a écrit :

Pourquoi cette volonté d’archiver le net ? Si un mec décide de ne plus afficher son site, de quel droit un site comme IA s’arroge le droit de l’archiver et de le rendre ainsi toujours visible? Et encore plus en se donnant cette tache comme “mission”…

On dirait des putains de mormons, les mecs, qui archivent les données d’État civil de toute la population mondiale…

Et pourquoi pas ? Parfois le retrait d’un site est involontaire (une boite qui fait faillite par exemple) alors que le contenu du site peut encore intéresser des gens. Ça m’est déjà arrivé d’avoir recours au service de IA.

Si un éditeur arrête de publier un livre, ce dernier existera toujours dans les stocks des libraires, bibliothèques (privée ou publiques), l’ouvrage ne disparaitra pas du jour au lendemain.

Le 24/04/2017 à 14h 28

#37

Dans un sens, oui.

Avec une simple page de login, tu obtiens également des informations sur les méthodes d’authentification d’une époque. Tu va commencer à t’apercevoir de l’émergence de l’OAuth par exemple.

 

Tu va également avoir des informations autour du design d’une époque. Et sur des éléments qui représente globalement la même chose donc un bon comparatif.

On peut déduire pas mal de chose à partir de quelque informations.

Il ne faut pas oublié que si on a réussi à déchiffrer certain langue en archéologie, c’est à partir de “livre de

 comptabilité”.

Le 24/04/2017 à 14h 41

#38

Je n’ai pas dit qu’IA avait raison d’ignorer robots.txt. Je dis juste que compter sur le robots.txt (qu’aucun contrat n’oblige qui que ce soit à utiliser) pour éviter qu’un bot puisse accéder à des données qu’on a mises en accès libre c’est naïf.

Edit : ortho

Ne2l Abonné

Le 24/04/2017 à 15h 07

#39

A ce moment la, un acces protégé par mdp/certificat/etc. est ce qu’il te faut.

Faut pas s’étonner que des contenus accessibles facilement se trouvent ailleurs que la ou ils ont été publiés.

Le 24/04/2017 à 15h 13

#40

Ouais, c’est un peu etrange. L’application bete et mechante serait, pour moi, de ne pas indexer de nouveau contenu…

Jarodd Abonné

Le 24/04/2017 à 15h 38

#41

Leur mission est louable, mais plutôt que réfléchir au contenu derrière un robots.txt ils feraient mieux de convenablement archiver ce qui est déjà archivable.

A chaque fois que je me suis servi de leur service, je n’ai pas trouvé

ce que je cherchais. Par exemple ils faisaient des snapshots d’un site

tous les 6 mois, alors qu’il y avait des publications tous les jours. Je

tombais sur la page d’accueil mais la navigation était impossible pour retrouver un article précis (IA

met son propre lien qui n’amène nulle part).

Yutani

Le 24/04/2017 à 16h 01

#42

ils peuvent faire ce qu’ils veulent avec leur “robots” mais il ne faut surtout pas qu’ils ignorent le site de Jvachez " />

Le 24/04/2017 à 16h 41

#43

Tu vois de la naïveté là où je vois un besoin de respect mutuel.

Pour moi, on peut faire un parallèle avec la publicité.

Trop d’espace dédié à de la pub => l’utilisateur la bloque.

les crawleurs veulent trop de données => le webmaster va les bloquer

C’est dommage :(

Le 24/04/2017 à 17h 24

#44

Ben justement, en reprenant ton parallèle, espérer que le milieu de la publicité réagisse avant que les gens n’installent des bloqueurs, c’était naïf et on l’a bien vu : ça n’a pas beaucoup évolué, et le peu d’évolutions vient d’abord et surtout de sites comme NxI qui adopte une politique publicitaire propre et non des régies.

Ici, c’est pareil : si tu veux vraiment empêcher l’archivage (ou le parcours de ton site par des bots pour d’autres raisons), mieux vaut agir toi-même plutôt qu’espérer qu’on respecte le choix que tu as mis dans robots.txt.

Le 24/04/2017 à 17h 34

#45

Yutani a écrit :

ils peuvent faire ce qu’ils veulent avec leur “robots” mais il ne faut surtout pas qu’ils ignorent le site de Jvachez " />

" /> On devrait l’inscrire au patrimoine mondial des internets celui la!

Le 24/04/2017 à 17h 50

#46

Aqua-Niki a écrit :

espérer que le milieu de la publicité réagisse avant que les gens n’installent des bloqueurs, c’était naïf

Je vois la chose autrement. Selon moi il aurait fallu que les régies ne soient pas gourmandes

En gros tu parles de mettre des limites dames le débuts alors que je parle de faire confiance pour ensuite sanctionner en cas d’abus

Les limites dès le début, ca ne marche pas de toute manière. Tu ne peux pas tout prévoir

Le 24/04/2017 à 17h 51

#47

Bref, “Internet Archive” a le droit de faire ce qu’il veut parce qu’il est gentil et que ses intentions sont nobles.

Et puis un jour on découvrira que…

zefling Abonné

Le 24/04/2017 à 19h 39

#48

Je fais des sites depuis 18 ans, et je comprends un peu leur problème. Et dans un sens, le problème du robot.txt vient surtout qu’on publie en public des données privées, avec des jetons directement dans l’URL, ce qui n’a rien de sécurisé.

Perso, le robot.txt, je m’en tape un peu, je l’utilise surtout pour limiter robot dans le but de soulager mon serveur. C’est plus dire : « Ne viens pas ici, tu ne va trouver que des 403 (droits d’accès insuffisants) ». Ce qui ne doit pas être vu ne le sera pas, même si le robot.txt est nié.

Normalement, si tu utilises le robot.txt pour te protéger, c’est que t’as la pire protection existante : aucune. Tu prends le risque que des données publiques soient exposées par n’importe quoi ou n’importe qui. Et après, on se retrouve avec article d’entreprises dans des situations risibles et dramatiques. J’ai déjà vécu ça : le SVN d’une boîte qui se retrouve sur Google.

Maintenant pour en revenir au problème de Indexeur (ex Google) vs Archiveur (ex IA) :

1/ si un Indexeur voir un robot.txt qui lui dit : « maintenant tu me retires tout ça, parce que c’était une erreur. » Il va tout virer dans les jours qui suivent. Ça peut être complètement légitime, on a fait une connerie, on l’a réparé, mais le cache des moteurs de recherche subsistant est encore gênant. 2/Mais ça peut aussi venir d’un changement du propriétaire ou d’une nouvelle version d’un site : « maintenant, j’ai un nouveau site, oublie tout ce qui se rapporte à l’ancien ». L’Indexeur va dégager tout ce qui lui ait demandé.

si un Archiveur passe, on se place dans le cas 1/ si comporte comme l’Indexeur c’est cool, parce qu’il parfois compliqué de dire la période à virer, ce dernier supprime tout. Par contre, s’il se place dans le cas 2/ c’est beaucoup moins cool, les archives de l’ancienne version on peut-être un intérêt « historique ». C’était public et il y avait peut-être de l’information utile.

Bref, le robot.txt ne donne pas de plage temporelle. Donc, c’est : on supprime tout ou rien. Impossible de dire si c’est depuis le nouveau robot.txt puisque le nouveau a peut-être était là pour supprimer quelque chose qui est soit légitime ou illégitime. Le respecter c’est prendre le risque de perdre des données, ne pas le respecter c’est prendre le risque d’avoir des données illégitimes et même le respecter à partir des changements de règles.

Pour moi, le choix ne peut pas être le même qu’un Indexeur qui se fout de ce qui n’existe plus, et je ne saurais dire quel est le meilleur choix.

psn00ps

Le 24/04/2017 à 21h 05

#49

Si tu veux de la sécurité, cela n’a rien à voir avec robots.txt.

Il est optionnel depuis sa création.

bohwaz Abonné

Le 24/04/2017 à 23h 00

#50

Je comprends pas l’opposition à IA, ils font un boulot formidable qui permet de récupérer le contenu de sites qui disparaissent, ou quand les sites changent leurs URLs, et préserver des infos intéressantes pour l’avenir.

Ça me paraît normal d’ignorer le robots.txt (perso mon crawler de RSS n’en a rien à foutre du robots.txt, utilise des IP aléatoires et un user agent type Chrome/Firefox dernière version, et si l’accès au site ne marche pas sans JS il récupère la page avec webkit directement, donc aucun moyen de l’empêcher de faire son boulot), ne serait-ce que parce qu’il contient souvent n’importe quoi, et qu’il empêcherait sinon d’archiver des infos utiles qu’on a besoin de récupérer ensuite.

Merci à IA en tout cas :)

lordofkill

Le 25/04/2017 à 02h 10

#51

Je visitais de vieux site mais a cause d’un robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive

Deplus archive.org est un archiveur il ne permet pas la recherche des site archivé se qui est différent des moteur de recherche qui permet de fouiller la vie privé , ce qui a été trop souvent le cas 

Archive.org permet de fouillé des version antérieur d’un site web tel un musée archive des vieux livre 

A noté que archive.org est reconnu en temps que musée donc certaine loi ne s’applique.

Ph11

Le 25/04/2017 à 07h 33

#52

En soi, ce serait une violation de la vie privée.

Qu’ils le fassent et ils se prendront un gros procès sur le dos.

Le 25/04/2017 à 11h 03

#53

lordofkill a écrit :

Je visitais de vieux site mais a cause d’un de la politique de Internet Archive d’appliquer rétro-activement le robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive

 
fixed   
En gros, en appliquant le nouveau robots.txt, IA se donne le droit se modifier une version d’un site web; vive le musée.

Heureusement que la BNF ne modifie pas les anciennes éditions de bouquins quand une nouvelle plus politiquement correcte sort!

Le 25/04/2017 à 11h 23

#54

PtiDidi a écrit :

Je visitais de vieux site mais a cause d’un de la politique de Internet Archive d’appliquer rétro-activement le robots.txt créé par le nouveau propriétaire j’ai perdu accés au info des archive
fixed   
En gros, en appliquant le nouveau robots.txt, IA se donne le droit se modifier une version d’un site web; vive le musée.

Heureusement que la BNF ne modifie pas les anciennes éditions de bouquins quand une nouvelle plus politiquement correcte sort!

Il ne modifie pas, il supprime des archives tel que demandé par le robot.txt

Le 25/04/2017 à 13h 00

#55

" />

Le robots.txt ne se préoccupe pas d’archivage hein!

Il ne demande pas de supprimer des archives, ca c’est le comportement adopté par IA qui est contraire au fait de “créer des images instantanées du web”.

Si ton image instantanée est modifiée à postériori, cest pas une instantanée..

Le robots.txt demande aux robots de ne pas indexer certaines parties d’un site.

C’est à la base du gagnant-gagnant vu que :

le webmaster choisit ce qu’il est pertinent d’indexer => gain en visibilité

le crawler n’indexe que ce qui est pertinent => gain en temps et en place

Le 25/04/2017 à 14h 15

#56

Il y a une raison que le fichier robots.txt existe 

quand google a commencé a recherché les fichier en plus des page web , celui-ci a répertorié un nombre de fichier contenant des données sensible en 2004

Le robots.txt est parfois utilisé par abus par les webmasters mais il est vitale pour protégé aussi des données

Le 25/04/2017 à 15h 10

#57

Relis le pavé que j’ai écris avant.

Et celui qui se sert du robot.txt pour la sécu n’aura que ce qu’il mérite.

Le 26/04/2017 à 14h 39

#58

J’ai lu, et c’est bien tu exposes les faits clairement.

Oui, le robots.txt sert au webmaster afin le robots indexe les contenus pertinents sans parcourir toutes les pages et surcharger le serveur.

Non le robots.txt ne sert pas à faire de la sécurité ni à dire ‘ha ca c’était une erreur, supprime de ton cache’

Si tu veux supprimer des données d’un cache suite à une connerie, tu prends ton clavier à deux mains et tu contactes les gérant du-dit cache

Le 26/04/2017 à 14h 44

#59

Protéger des données avec un robots.txt cest comme protéger son jardin avec un écriteau “propriété privé”.

Ca marche avec ceux qui respecte les règles, Cest pas de la sécurité pour autant.

La raison pour laquelle le robots.txt existe c’est d’avoir les contenus pertinents indéxés sans perdre de temps à parcourir le serveur entier.

Un robot qui ne respecte pas le robots.txt tombera dans un honeypot et n’indexera jamais le contenu pertinent.

Il passera sa vie à indexer des données random.. quel intérêt à cela?

Le 26/04/2017 à 14h 50

#60

Je ne m’opose pas à eux, je m’oppose au choix qu’ils envisagent qui est mauvais.

Ignorer le robots.txt c’est prendre le risque de tomber dans un honeypots.. c’est pas comme ca que tu vas archiver des infos utiles.

Pour explorer le web, l’Internet Archive songe à ignorer les fichiers Robots.txt

La Wayback Machine grippée

Une mesure radicale déjà (parfois) appliquée

Vers un respect granulaire du Robots.txt ?

Tiens, en parlant de ça :

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

altruisme ineffectif

Europol milite pour un chiffrement de bout en bout « flexible »

Here we go again

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

Re:Qovery

Sommaire de l'article

Introduction

Une mesure radicale déjà (parfois) appliquée

Vers un respect granulaire du Robots.txt ?

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

Android 15 : la bêta 1.1 corrige plusieurs soucis, dont le NFC

Selon Jean-Noël Barrot, la France et l’Europe sont « pilonnés par la propagande de la Russie »

C’est la fin pour la marque Roccat, Turtle Beach prend le relai

Intelligence artificielle : Apple rachète la société française Datakalab

Proton Mail ajoute la surveillance du dark web à la recherche de fuites de données

La lutte contre les centres d’appels, une « priorité » de la cyberpolice ukrainienne

Commentaires (60)