Le fichier robots.txt fêtait cette semaine ses vingt ans. À l'occasion de cet anniversaire, plusieurs sociétés ont laissé de petits messages, certains pleins d'humour. C'est par exemple le cas de Google qui en profite pour mettre ses dirigeants à l'abri d'une attaque de Terminator.
Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation
Le 30 juin 1994, un consensus était trouvé afin de mettre en place un système permettant de donner des indications aux robots des moteurs de recherche. Le but étant de leur indiquer des pages qu'il est inutile d'indexer, et ce, quelle qu’en soit la raison. Cela passe donc par un fichier nommé robots.txt.
Il est important de rappeler qu'il ne s'agit que d'une indication et pas d'une obligation. Les moteurs de recherche peuvent en effet décider de passer outre. De plus, il n'existe aucune norme officielle mise en place par une organisation ou une société, mais de plus amples informations sont disponibles par ici.
Quoi qu'il en soit, ce fichier fêtait donc ses 20 ans cette semaine. Un événement qui aurait pu passer inaperçu pour la très grande majorité des gens, mais c'était sans compter sur l'espièglerie de certains. En effet, plusieurs entreprises ont modifié leur fichier à cette occasion, souvent de manière assez drôle. Notez que dans certains cas les messages étaient déjà présents avant cet anniversaire. En voici quelques-uns triés sur le volet.
Google protège ses fondateurs des Terminators
Chez Google, on indique aux robots T-800 et T-1000 (alias Terminator) qu'ils ne doivent pas s'occuper de Larry Page et de Sergey Brin, les deux fondateurs du moteur de recherche. Un point qui pourrait par contre être à double tranchant étant donné l'intérêt que porte actuellement Google à la robotique, ainsi que les récentes manifestations lors de la conférence Google I/O où certains critiquaient les investissements de Google et les « robots qui tuent des gens ».
De son côté, Nike affiche des messages publicitaires : « levez-vous. Sortez. Allez de l'avant. Pas d'excuse », qui sont donc avant tout destinés aux geeks (qui d'autres s'intéresse à ces fichiers ?). Forecheck, une société spécialisée dans le SEO, fait d'une pierre deux coups avec le long départ en vacances de Matt Cutts.
On pourrait également citer Yelp ou encore Etsy (à condition de bien penser à lire la fin du fichier). Bien évidemment, n'hésitez pas à nous faire part de vos trouvailles via les commentaires.
Commentaires (40)
#1
Et Next INpact y’a quoi dans son robots.txt ? :P
#2
Just crawl it
" />
#3
#4
Chez Nike, le message a disparu. " />
#5
Marrant.
Juste pour le fun, j’ai changé le mien.
#6
“levez-vous. Sortez. Allez de l’avant. Pas d’excuse” c’est juste le “bonjour” de Nike a ses employés au Bangladesh " />
#7
killer-robots.txt ? Cela fait partie des noms de fichiers robots ?
http://www.lemonde.fr/robots.txt C’est bon ? " />
#8
Un an après ? 94 +1 = 85 ? Je comprends pas tout là…
#9
#10
#11
y’en pas un qui a déjà gueulé “Danger ! Danger ! Will Robinson !” ???? " />
" />
#12
Je viens de regarder quelques fichiers robots.txt, sur reddit par exemple on a :
User-Agent: bender
Disallow: /my_shiny_metal_ass
User-Agent: Gort
Disallow: /earth
je sens que je vais m’amuser " />
#13
Moi j’aime beaucoup celui de reflets.info " />
Sinon le mien est d’une grand originalité :
User-agent: *
Disallow: /
" />
#14
#15
#16
Mon robots.txt :
User-agent: googlebot
Allow: /firstpage
User-agent: 007
Disallow: /allow
Mais mon site n’apparaît toujours pas en première page de résultat sur Google " />
#17
#18
Et celui du point montre que le site propose déjà le droit au déréférencement " />
#19
Google à lui aussi un fichier :
http://www.google.com/robots.txt
#20
#21
Pour le fun, celui de last.fm " />
#22
#23
#24
#25
Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.
#26
#27
Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.
#28
#29
En exclusivité le robots.txt de youtube:
User-Agent: Windows-phone*
Dissalow: /
…" />
#30
#31
#32
Celui de kat est bien aussi, ça fait un bout de temps qu’il est là :
https://kickass.to/robots.txt
Source :https://www.youtube.com/watch?v=2SdGkkp1aq8
https://github.com/robots.txt qui fait rebondir vers
https://github.com/humans.txt
http://www.google.com/humans.txt
http://developer.appcelerator.com/robots.txt
http://mirrors.webfusion.com/robots.txt
#33
http://www.last.fm/robots.txt
http://yelp.com/robots.txt
#34
robots.txt : une invention méconnue de Isaac Asimov.
#35
celui de youtube " />
http://www.youtube.com/robots.txt
#36
http://kickass.to/robots.txt " />
#37
#38
#39
#40