25 ans de Robots.txt : le parser C++ de Google open source, un draft soumis à l'IETFCrédits : ThomasVogel/iStock

Les développeurs de sites rêvent d'un référencement parfait de leurs pages sur les moteurs de recherche. Mais il y en a certaines qu'ils ne veulent pas y voir apparaître, pour des raisons diverses.

Pour cela, il existe un petit fichier à placer à la racine d'un domaine, indiquant aux « robots » crawlers les règles à respecter : robots.txt. Aucune obligation légale de le prendre en compte, mais les moteurs de recherche le font en général.

Ce fichier, utilisé par plus de 500 millions de sites, répond au Robots Exclusion Protocol (REP), initié en 1994 par Martijn Koster et maintenu depuis. C'est un standard de fait, dont l'interprétation peut varier.

Google s'est donc associé à d'autres moteurs, Koster et des responsables de sites pour documenter le REP et soumettre le résultat à l'IETF afin qu'il soit reconnu comme un standard, géré et implémenté comme tel.

De plus, la bibliothèque C++ utilisée pour interpréter les fichiers robots.txt a été diffusée en open source par Google, sous licence Apache 2.0. Elle est disponible sur GitHub.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !