Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Google met à jour son outil de test du fichier Robots.txt

Vous aussi, évitez de vous faire liquider par Terminator
Internet 1 min
Google met à jour son outil de test du fichier Robots.txt
Crédits : Carlos Luna (lice ce CC BY 2.0)

Quelques jours après les 20 ans du fichier Robots.txt, Google a décidé de revoir son outil dédié à sa validation. Il faut dire que l'on a pu constater que certains se font plaisir avec cet élément, et que le maintenir en état peut parfois s'avérer compliqué.

Google Bot Robots.txt Webmaster Tools

 

Il y a quelques jours, nous fêtions les 20 ans du fichier Robots.txt, qui permet d'indiquer aux moteurs de recherche les éléments à référencer ou non. Et si celui-ci peut le plus souvent rester assez simple, certains en font une véritable usine à gaz, pour de bonnes ou de mauvaises raisons.

 

Quoi qu'il en soit, pour faciliter le travail des développeurs, Google a décidé de revoir et de simplifier son outil de validation, disponible au sein de ses Webmaster Tools. Disponible au sein de la section « Exploration », celui-ci vous indique directement les avertissements et erreurs de votre fichier, mais vous permet aussi de vérifier si une adresse spécifique est accessible ou bloquée, que ce soit aux bots principaux, ou à ceux relatifs aux actualités, aux vidéos, aux images, etc. 

 

Google précise que son site dédié aux développeurs référence les différentes directives reconnues par ses bots. Et pour éviter Terminator, il vous suffira de recopier ceci.

21 commentaires
Avatar de Aloyse57 Abonné
Avatar de Aloyse57Aloyse57- 16/07/14 à 14:34:08

Je me demande toujours si par défaut l'absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n'indexez pas ce domaine».
Quelqu'un sait ?

Avatar de Fuinril INpactien
Avatar de FuinrilFuinril- 16/07/14 à 14:35:42

Aloyse57 a écrit :

Je me demande toujours si par défaut l'absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n'indexez pas ce domaine».
Quelqu'un sait ?

Index tout

Avatar de Konrad INpactien
Avatar de KonradKonrad- 16/07/14 à 14:39:51

Aloyse57 a écrit :

Je me demande toujours si par défaut l'absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n'indexez pas ce domaine».
Quelqu'un sait ?

L'absence de fichier «robots.txt» c'est comme si le Webmaster disait : «indexez ce que vous voulez je m'en fous».

La présence d'un fichier«robots.txt» c'est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»... Mais ça n'a pas valeur d'ordre impératif, le moteur de recherche peut tout à fait décider d'ignorer le fichier et de tout indexer quand même.

Avatar de maxxyme INpactien
Avatar de maxxymemaxxyme- 16/07/14 à 14:48:54

Konrad a écrit :

L'absence de fichier «robots.txt» c'est comme si le Webmaster disait : «indexez ce que vous voulez je m'en fous».

La présence d'un fichier«robots.txt» c'est comme si le Webmaster disait : «veuillez ne pas indexer ça, ça et ça»... Mais ça n'a pas valeur d'ordre impératif, le moteur de recherche peut tout à fait décider d'ignorer le fichier et de tout indexer quand même

Et aussi dire : indexer ceci, celà (un peu comme un sitemap)

Avatar de knos Abonné
Avatar de knosknos- 16/07/14 à 15:11:11

Aloyse57 a écrit :

Je me demande toujours si par défaut l'absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n'indexez pas ce domaine».
Quelqu'un sait ?

C'est vrai que là ça fait un peu comme une porte d'entrer ou il faudrait un panneau n'entrez pas pour interdire au gens d'entrer...

Avatar de bilbonsacquet Abonné
Avatar de bilbonsacquetbilbonsacquet- 16/07/14 à 15:12:00

Konrad a écrit :

Mais ça n'a pas valeur d'ordre impératif, le moteur de recherche peut tout à fait décider d'ignorer le fichier et de tout indexer quand même.

Tout à fait, et la BNF s'en contrefout :
http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

En vertu du Code du patrimoine (art L132-2-1), la BnF est autorisée à ne pas respecter le protocole d’exclusion de robot, également appelé protocole robots.txt.

Avatar de athlon64 INpactien
Avatar de athlon64athlon64- 16/07/14 à 15:19:00

bilbonsacquet a écrit :

Tout à fait, et la BNF s'en contrefout :
http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

:eeek2::cartonrouge::censored: en quoi la BnF peut se permettre d'indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? :reflechis: (HADOPI m'entends-tu ?)

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 16/07/14 à 15:26:02

Aloyse57 a écrit :

Je me demande toujours si par défaut l'absence de Robots.txt signifie : «indexez tout ce que vous voulez» ou «vous n'indexez pas ce domaine».
Quelqu'un sait ?

Tout indexer.
C'est assez logique quand on se place à l'époque des premiers moteurs de recherche. C'est un comportement par défaut qui est en rapport avec la logique du web de l'époque (le partage).

Avatar de Konrad INpactien
Avatar de KonradKonrad- 16/07/14 à 15:34:04

athlon64 a écrit :

:eeek2::cartonrouge::censored: en quoi la BnF peut se permettre d'indexer tout ? Si on met sur notre site un contenu protégé, ca prend quand même ? :reflechis: (HADOPI m'entends-tu ?)

Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess...). Le fichier robots.txt n'est clairement pas fait pour ça...

Avatar de athlon64 INpactien
Avatar de athlon64athlon64- 16/07/14 à 15:38:35

Konrad a écrit :

Si tu veux protéger un contenu sur un site Web il y a des solutions prévues pour ça (login/mdp, fichier .htaccess...). Le fichier robots.txt n'est clairement pas fait pour ça...

Je sais bien que ce n'est pas le but du robot, mais le fait d'outre passer ce protocole, qui plus est, par une administration je trouve ca quand même fort. Je parle pas de protection forte. Si tu ne veux pas qu'un contenu soit indexé ce n'est pas a eux de venir avec leurs grands sabots et dire FUCK !. Certains moteurs ne jouent pas le jeu, mais ce ne sont pas des moteurs fiables (ou des moteurs russes :transpi:)

Édité par athlon64 le 16/07/2014 à 15:39
Il n'est plus possible de commenter cette actualité.
Page 1 / 3