20 ans de robots.txt : Google se protège des Terminator, d'autres s'amusent

20 ans de robots.txt : Google se protège des Terminator, d’autres s’amusent

Quels blagueurs ces développeurs

Avatar de l'auteur
Sébastien Gavois

Publié dans

Internet

05/07/2014 3 minutes
40

20 ans de robots.txt : Google se protège des Terminator, d'autres s'amusent

Le fichier robots.txt fêtait cette semaine ses vingt ans. À l'occasion de cet anniversaire, plusieurs sociétés ont laissé de petits messages, certains pleins d'humour. C'est par exemple le cas de Google qui en profite pour mettre ses dirigeants à l'abri d'une attaque de Terminator.

Affiche Terminator
Chez Google, aurait-on peur des Terminator ? 

Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation

Le 30 juin 1994, un consensus était trouvé afin de mettre en place un système permettant de donner des indications aux robots des moteurs de recherche. Le but étant de leur indiquer des pages qu'il est inutile d'indexer, et ce, quelle qu’en soit la raison. Cela passe donc par un fichier nommé robots.txt.

 

Il est important de rappeler qu'il ne s'agit que d'une indication et pas d'une obligation. Les moteurs de recherche peuvent en effet décider de passer outre. De plus, il n'existe aucune norme officielle mise en place par une organisation ou une société, mais de plus amples informations sont disponibles par ici.

 

Quoi qu'il en soit, ce fichier fêtait donc ses 20 ans cette semaine. Un événement qui aurait pu passer inaperçu pour la très grande majorité des gens, mais c'était sans compter sur l'espièglerie de certains. En effet, plusieurs entreprises ont modifié leur fichier à cette occasion, souvent de manière assez drôle. Notez que dans certains cas les messages étaient déjà présents avant cet anniversaire. En voici quelques-uns triés sur le volet.

Google protège ses fondateurs des Terminators

Chez Google, on indique aux robots T-800 et T-1000 (alias Terminator) qu'ils ne doivent pas s'occuper de Larry Page et de Sergey Brin, les deux fondateurs du moteur de recherche. Un point qui pourrait par contre être à double tranchant étant donné l'intérêt que porte actuellement Google à la robotique, ainsi que les récentes manifestations lors de la conférence Google I/O où certains critiquaient les investissements de Google et les « robots qui tuent des gens ».

 

De son côté, Nike affiche des messages publicitaires : « levez-vous. Sortez. Allez de l'avant. Pas d'excuse », qui sont donc avant tout destinés aux geeks (qui d'autres s'intéresse à ces fichiers ?). Forecheck, une société spécialisée dans le SEO, fait d'une pierre deux coups avec le long départ en vacances de Matt Cutts.

 

On pourrait également citer Yelp ou encore Etsy (à condition de bien penser à lire la fin du fichier). Bien évidemment, n'hésitez pas à nous faire part de vos trouvailles via les commentaires.

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Robots.txt : un consensus vieux de 20 ans, mais en aucun cas une obligation

Google protège ses fondateurs des Terminators

Commentaires (40)


Et Next INpact y’a quoi dans son robots.txt ? :P




Just crawl it





<img data-src=" />








Flandre5carlet a écrit :



Et Next INpact y’a quoi dans son robots.txt ? :P







C’est plus facile de vérifier que de demander non ?



Chez Nike, le message a disparu. <img data-src=" />


Marrant.



Juste pour le fun, j’ai changé le mien.


“levez-vous. Sortez. Allez de l’avant. Pas d’excuse” c’est juste le “bonjour” de Nike a ses employés au Bangladesh <img data-src=" />


killer-robots.txt ? Cela fait partie des noms de fichiers robots ?



http://www.lemonde.fr/robots.txt C’est bon ? <img data-src=" />


Un an après ? 94 +1 = 85 ? Je comprends pas tout là…








Minarey a écrit :



Un an après ? 94 +1 = 85 ? Je comprends pas tout là…







/me va revoir son boulier <img data-src=" />









gathor a écrit :



/me va revoir son boulier <img data-src=" />





Toi tu t’es trompé de colonne <img data-src=" />



y’en pas un qui a déjà gueulé “Danger ! Danger ! Will Robinson !” ???? <img data-src=" />

<img data-src=" />


Je viens de regarder quelques fichiers robots.txt, sur reddit par exemple on a :





User-Agent: bender

Disallow: /my_shiny_metal_ass



User-Agent: Gort

Disallow: /earth





je sens que je vais m’amuser <img data-src=" />


Moi j’aime beaucoup celui de reflets.info <img data-src=" />



Sinon le mien est d’une grand originalité :





User-agent: *

Disallow: /





<img data-src=" />








John Shaft a écrit :



Moi j’aime beaucoup celui de reflets.info <img data-src=" />



Sinon le mien est d’une grand originalité :







<img data-src=" />





Le premier robot que j’ai été voir aussi <img data-src=" /> <img data-src=" />









Z-os a écrit :



http://www.lemonde.fr/robots.txt C’est bon ? <img data-src=" />







Celui du nouvel obs est pas mal non plus : on interdit tout ou presque sauf Google, Bing et les 2-3 autres gros, et on viens réclamer des thunes de la part de Google pour le manque à gagner parce qu’on apparait dans Google News



Mon robots.txt :





User-agent: googlebot

Allow: /firstpage



User-agent: 007

Disallow: /allow





Mais mon site n’apparaît toujours pas en première page de résultat sur Google <img data-src=" />








tAran a écrit :



Le premier robot que j’ai été voir aussi <img data-src=" /> <img data-src=" />







Tiens fait rigolo : La Quadrature et Hadopi ont le même robots.txt à 2 lignes près <img data-src=" />



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />









John Shaft a écrit :



Tiens fait rigolo : La Quadrature et Hadopi ont le même robots.txt à 2 lignes près <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)



Google à lui aussi un fichier :

http://www.google.com/robots.txt








Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement





Très efficace pour faire oublier un article : tu le laisses en ligne et tu mets son URL complète dans le robots.txt <img data-src=" />



Pour le fun, celui de last.fm <img data-src=" />








Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />







Le Nouvel Obs aussi le fait pour une et une seule URL, là y sont fort chez FOG. (on notera la mention Bygmalion et celle au “sondage” posté il y a peu ) <img data-src=" />










Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)





Drupal. What else ? <img data-src=" />









psn00ps a écrit :



Drupal. What else ? <img data-src=" />





Ça existe encore ? Depuis le temps que j’entends que c’est voué à disparaitre.

(Comme mon cher cobol remarque <img data-src=" />)



Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.








linconnu a écrit :



Ca serait intéressant de faire au contraire un moteur qui ne référence que les contenus des robots.txt je pense que l’on pouvait trouver pas mal de contenus intéressant que les webmasters veulent nous cacher.





Un petit inurl:robots.txt dans google pour commencer. <img data-src=" />



voire inurl:.fr/robots.txt pour les sites français.



Et j’adore celui de décathlon. ;-)



Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.








Crysalide a écrit :



Il y avait déjà des robots indexeurs en 1994 ? C’est assez surprenant parce que les gros moteurs de recherche de l’époque (Hotbot, Altavista, GG etc) ont vu le jour plus tard, en tous les cas, les créateurs de ce consensus ont été bien avisés quand on voit l’importance de l’indexation du contenu du web 20 ans après.







1993

W3Catalog

Aliweb

JumpStation

1994

WebCrawler

Aggregator

Go.com

Yahoo Search

Lycos

Infoseek



http://en.wikipedia.org/wiki/Search_engine



En exclusivité le robots.txt de youtube:



User-Agent: Windows-phone*

Dissalow: /



<img data-src=" />








Z-os a écrit :



Un petit inurl:robots.txt dans google pour commencer. <img data-src=" />



voire inurl:.fr/robots.txt pour les sites français.



Et j’adore celui de décathlon. ;-)





Marrant, je viens de voir que la maison blanche est sous Drupal aussi <img data-src=" />









Z-os a écrit :



Et celui du point montre que le site propose déjà le droit au déréférencement <img data-src=" />





Tu sous-entends que ce sont les mêmes qui sont derrière les deux institutions ? <img data-src=" />







–&gt; [] (cela sent l’install par défaut)







D’ailleurs dans Lepoint il y a cette ligne :



Disallow: /sondages-oui-non/faut-il-retirer-aux-francais-d-origine-algerienne-leur-double-nationalite-29-06-2014-1841661_1923.php



Car le sondage avait fait polémique :)





EDIT Grillé :) :







John Shaft a écrit :



Le Nouvel Obs aussi le fait pour une et une seule URL, là y sont fort chez FOG. (on notera la mention Bygmalion et celle au “sondage” posté il y a peu ) <img data-src=" />








robots.txt : une invention méconnue de Isaac Asimov.



celui de youtube <img data-src=" />

http://www.youtube.com/robots.txt








gerard_le a écrit :



celui de youtube <img data-src=" />

http://www.youtube.com/robots.txt





<img data-src=" />









Vanilys a écrit :



D’ailleurs dans Lepoint il y a cette ligne :

Disallow: /sondages-oui-non/faut-il-retirer-aux-francais-d-origine-algerienne-leur-double-nationalite-29-06-2014-1841661_1923.php

Car le sondage avait fait polémique :)





Je peu comprendre le sondage, mais ça :



Disallow: /insolite/femme-de-menage-en-tenue-sexy-un-concept-qui-ne-fait-pas-l-unanimite-11-02-2011-1294557_48.php



Je comprend moins. Ça m’a l’air d’une nouvelle tout à fait digne d’intérêt <img data-src=" />









maxxyme a écrit :



Chez Nike, le message a disparu. <img data-src=" />







Il est toujours visible, mais sur leur store, pas Nike.com <img data-src=" />









Jarodd a écrit :



Il est toujours visible, mais sur leur store, pas Nike.com <img data-src=" />





OKI <img data-src=" />