Google met à jour son outil de test du fichier Robots.txt

Google met à jour son outil de test du fichier Robots.txt

Vous aussi, évitez de vous faire liquider par Terminator

Avatar de l'auteur
David Legrand

Publié dans

Internet

16/07/2014 2 minutes
21

Google met à jour son outil de test du fichier Robots.txt

Quelques jours après les 20 ans du fichier Robots.txt, Google a décidé de revoir son outil dédié à sa validation. Il faut dire que l'on a pu constater que certains se font plaisir avec cet élément, et que le maintenir en état peut parfois s'avérer compliqué.

Google Bot Robots.txt Webmaster Tools

 

Il y a quelques jours, nous fêtions les 20 ans du fichier Robots.txt, qui permet d'indiquer aux moteurs de recherche les éléments à référencer ou non. Et si celui-ci peut le plus souvent rester assez simple, certains en font une véritable usine à gaz, pour de bonnes ou de mauvaises raisons.

 

Quoi qu'il en soit, pour faciliter le travail des développeurs, Google a décidé de revoir et de simplifier son outil de validation, disponible au sein de ses Webmaster Tools. Disponible au sein de la section « Exploration », celui-ci vous indique directement les avertissements et erreurs de votre fichier, mais vous permet aussi de vérifier si une adresse spécifique est accessible ou bloquée, que ce soit aux bots principaux, ou à ceux relatifs aux actualités, aux vidéos, aux images, etc. 

 

Google précise que son site dédié aux développeurs référence les différentes directives reconnues par ses bots. Et pour éviter Terminator, il vous suffira de recopier ceci.

Écrit par David Legrand

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Commentaires (21)


Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?








Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?







Index tout









Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?





L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».



La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.









Konrad a écrit :



L’absence de fichier «robots.txt» c’est comme si le Webmaster disait : «indexez ce que vous voulez je m’en fous».



La présence d’un fichier«robots.txt» c’est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»… Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même





Et aussi dire : indexer ceci, celà (un peu comme un sitemap)









Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?







C’est vrai que là ça fait un peu comme une porte d’entrer ou il faudrait un panneau n’entrez pas pour interdire au gens d’entrer…









Konrad a écrit :



Mais ça n’a pas valeur d’ordre impératif, le moteur de recherche peut tout à fait décider d’ignorer le fichier et de tout indexer quand même.





Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html





En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.









bilbonsacquet a écrit :



Tout à fait, et la BNF s’en contrefout :

http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html





<img data-src=" /><img data-src=" /><img data-src=" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? <img data-src=" /> (HADOPI m’entends-tu ?)









Aloyse57 a écrit :



Je me demande toujours si par défaut l’absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n’indexez pas ce domaine».

Quelqu’un sait ?





Tout indexer.

C’est assez logique quand on se place à l’époque des premiers moteurs de recherche. C’est un comportement par défaut qui est en rapport avec la logique du web de l’époque (le partage).









athlon64 a écrit :



<img data-src=" /><img data-src=" /><img data-src=" /> en quoi la BnF peut se permettre d’indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? <img data-src=" /> (HADOPI m’entends-tu ?)





Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…









Konrad a écrit :



Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…





Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes <img data-src=" />)









Konrad a écrit :



Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess…). Le fichier robots.txt n’est clairement pas fait pour ça…







Toutafé, surtout que le robots.txr n’est qu’informatif, les moteurs peuvent passer outre et référencer ce qu’on a interdit <img data-src=" />



J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.









Jarodd a écrit :



J’ai plusieurs fois entendu que ce fichier faisait office d’interdiction d’accès, alors qu’il ne concerne que le référencement.







C’est d’ailleurs très drôle de tomber sur des chemins non référencé dans les interdictions du robots <img data-src=" />



La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :





La BnF utilise le robot Heritrix http://crawler.archive.org) pour réaliser la collecte des sites Web. Le robot s’identifie avec le champ “User-Agent : Mozilla/5.0 (compatible; bnf.fr_bot; …)”.





Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.








athlon64 a écrit :



Je sais bien que ce n’est pas le but du robot, mais le fait d’outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu’un contenu soit indexé ce n’est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes <img data-src=" />)





Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».



Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…









Konrad a écrit :



Non mais le robots.txt c’est comme un serveur dans un restaurant qui te conseille le plat du jour. Si tu choisis autre chose le serveur ne va pas mal le prendre et te dire «ah ben voilà vous ne m’écoutez pas, vous me dites FUCK et vous prenez autre chose !!».



Comme dit plus haut ça n’a qu’une valeur informative, et pas du tout valeur de protection de quoi que ce soit. Il n’y a rien de mal à ce que la BNF passe outre les recommandation du robots.txt…





Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe



piwi82 a écrit :



La BNF donne quand même un moyen de bloquer leur crawler en donnant le user-agent utilisé :







Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.





<img data-src=" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc









athlon64 a écrit :



On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc







Le fichier robots.txt n’a aucune valeur juridique, à partir de là libre à chacun d’en respecter le fonctionnement ou non. La BNF n’est pas prête de changer de comportement.

Pour ma part j’ai bloqué leur subnet depuis longtemps déjà (on s’était rendu compte du phénomène sur des NAS Synology).









athlon64 a écrit :



Le lien donné mentionne le robot.txt comme un protocole etc. et vu que c’est pas un système obscur derrière (tout comme Google qui respecte le robot), je trouve ca lamentable de leur part. D’un coté on explique ce qu’est le robot et après on te dit qu’on s’en fou. C’est le principe même qui me dérange, la BnF n’a pas a indexé tout et outre passer ce protocole. C’est pas la protection des contenus en soi qui me gène, y a des méthodes faites pour je le sais bien, c’est juste le principe

<img data-src=" />

On ne te le dit pas, tu ne le sais pas et surtout venant d’une administration. C’est a eux de respecter, pas a toi de te faire chier a dégager le truc







À propos de principe, j’aime bien qu’on se présente quand on passe chez moi, donc dans mon htaccess j’ai un truc comme ça pour dégager les bots «anonymes» :





SetEnvIfNoCase User-Agent ^$ bot_mal_eleve

(…)

deny from env=bot_mal_eleve










piwi82 a écrit :



Sinon il y a plus bourrin en bloquant le subnet de Renater alloué à la BNF.





Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />









bilbonsacquet a écrit :



Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />





<img data-src=" /> encore pire dans ce cas !









bilbonsacquet a écrit :



Attention, comme indiqué, si tu leur bloques l’accès, ils peuvent t’attaquer… La joie des lois à la c <img data-src=" />









athlon64 a écrit :



<img data-src=" /> encore pire dans ce cas !







Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.



Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.









levhieu a écrit :



Note que la référence à l’article de loi concerné était dans le premier com. qui parlait de la BnF.



Cette situation est la continuation à l’heure d’internet de l’obligation de dépot légal des publications imprimées.





J’avais pas tout lu, je mettais arrêter sur le fait qu’ils indexent tout robot.txt ou non <img data-src=" />



Internet c’est pas de l’imprimé il me semble, parce que sinon ca va en bouffer du papier <img data-src=" />