Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !
25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l'IETFCrédits : ThomasVogel/iStock

Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.

Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.

Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.

Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.

De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.

10 commentaires
Avatar de bilbonsacquet Abonné
Avatar de bilbonsacquetbilbonsacquet- 02/07/19 à 09:44:10

En plus du Github, il y a pas mal de détails sur le blog "Webmasters" de Google :
https://webmasters.googleblog.com/

Avec aujourd'hui, une précision sur les règles "non supportées" :
https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

Avatar de choukky INpactien
Avatar de choukkychoukky- 02/07/19 à 10:52:40

bilbonsacquet a écrit :

En plus du Github, il y a pas mal de détails sur le blog "Webmasters" de Google :
https://webmasters.googleblog.com/

Avec aujourd'hui, une précision sur les règles "non supportées" :
https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html

:cap: Pour les fainéants comme moi qui préfèrent les liens en un clic. :transpi:

Édité par choukky le 02/07/2019 à 10:54
Avatar de Aloyse57 Abonné
Avatar de Aloyse57Aloyse57- 02/07/19 à 11:39:46

A l'heure du tout payant et des Ayant-droits à gogo pour telle ou telle raison, le référencement devrait fonctionner de manière inversée : interdiction de référencer les pages qui ne contiennent pas robots.txt.
Ainsi, finie la collecte de données/travaux gratuitement sous prétexte d'"indexation".
Google/Bing/etc.. n'auront que ce que l'on voudra bien leur laisser (donnant-donnant) ou devront payer leur matière première.

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 02/07/19 à 12:29:30

A l'heure du tout payant, google Bing & co pourraient même demander d'être rémunéré pour t'indexer. Ils t'apportent de la visibilité, des visiteursclients, tu dois payer pour leur service.

Avatar de HerrFrance Abonné
Avatar de HerrFranceHerrFrance- 02/07/19 à 12:38:52

Boum ! L'invention des Pages Jaunes, oh wait ! :D

Avatar de monpci INpactien
Avatar de monpcimonpci- 02/07/19 à 13:37:32

bon il reste plus qu'a faire un bot qui indexe tout ce qui ne doit pas être indexé ... :francais:

Avatar de Aloyse57 Abonné
Avatar de Aloyse57Aloyse57- 02/07/19 à 18:12:19

C'est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible...dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).
Sans ça (testé), on se retrouve loin dans le classement alors qu'on est premiers dans notre domaine dans la province, c'est dire que laisser aller l'algo "gratuit" coûte cher aussi au bout du compte.

Avatar de bilbonsacquet Abonné
Avatar de bilbonsacquetbilbonsacquet- 02/07/19 à 18:18:49

monpci a écrit :

bon il reste plus qu'a faire un bot qui indexe tout ce qui ne doit pas être indexé ... :francais:

Ça existe et c'est français : la BnF passe outre le robots.txt… :
https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf

Un robots.txt avec un "Disallow: /" est bien respecté par Google, donc faut arrêter de chouiner, ça prend 2 sec à mettre en place.

Avatar de Vekin Abonné
Avatar de VekinVekin- 03/07/19 à 08:28:01

À la différence que son site n'apparaît pas réellement en tête de classement, mais dans les encadrés publicitaires (qui sont visuellement en haut, d'accord, je chouine). Quelqu'un avec un bloqueur publicitaire ne le verra pas, par exemple.

Avatar de anagrys Abonné
Avatar de anagrysanagrys- 03/07/19 à 08:50:18

Aloyse57 a écrit :

C'est le cas : ma compagnie paye des milliers de dollars par an à Google pour être plus+ visible...dans les 2 langues (oui ici il faut tout faire 2 fois, une fois en anglais, une fois en français).
Sans ça (testé), on se retrouve loin dans le classement alors qu'on est premiers dans notre domaine dans la province, c'est dire que laisser aller l'algo "gratuit" coûte cher aussi au bout du compte.

À une époque je pratiquais une activité sportive. Le responsable de notre club a eu l'occasion de discuter avec une personne qui lui a expliqué en détails comment fonctionne le référencement Google. Il a réussi à se placer en première page, sans aucune connaissance technique et sans sortir un rond.
Si ta boîte est la première dans son domaine, tu devrais peut-être suggérer de recruter un consultant compétent pour améliorer son référencement, ça vous reviendra moins cher en coûts récurrents - il n'est pas impossible que vos concurrents l'aient fait.

Il n'est plus possible de commenter cette actualité.