Google Caffeine est maintenant prêt à indexer tout le Web

La monstroplante du net 77
Vincent Hermann
Google vient d’annoncer avoir terminé une évolution particulièrement importante de son moteur de recherche. En dépit de l’énorme diversification de la firme ces dernières années, trouver une information sur le Web reste le coeur de son activité, et c’est ici qu’entre en piste Caffeine. Il s’agit tout simplement du nom du nouveau moteur d’indexation de la firme, et l’on peut dire qu’il dévore littéralement le Web.

google logo moteur 

Le Web subit une évolution qui force les sociétés qui l’explorent et l’indexent à changer leurs méthodes. On l’a vu avec Microsoft et son moteur Bing, dont les dernières évolutions prennent par exemple les messages postés sur les comptes Twitter. Mais ces derniers ne sont qu’un exemple des nouveaux défis qui sont apparus : le caractère immédiat de l’information, les vidéos, les images, les articles de presse et toutes les mises à jour en temps réel sont autant de données à prendre en compte.

google caffeine

Caffeine change le mode de fonctionnement du moteur d'indexation. Comme le montre l’image ci-dessus, l’actuel est basé sur un modèle en couches, chacune d’entre elles visant un type de contenu particulier. Les couches se mettent à jour séparément les unes des autres, mais pour qu’une telle mise à jour se fasse, c’est le Web entier qui doit être analysé.

Le nouveau modèle fonctionne en permanence et fragmente le Web en petites cellules qui sont analysées presque en permanence. Le bénéfice immédiat, selon Google, est une apparition bien plus rapide des nouvelles entrées dans les résultats du moteur de recherche. Dès qu’une nouvelle information est trouvée, elle est ajoutée dans la foulée à l’index, ce qui permet à Google d’affirmer que le moteur renvoie maintenant 50 % de résultats « frais » supplémentaires.

L’infrastructure que cela suppose est tout bonnement titanesque. Voici d’ailleurs quelques chiffres :
  • Caffeine réunit pratiquement 100 millions de gigaoctets de données, soit 100 000 To, au sein d’une unique base de données
  • Les nouvelles informations sont ajoutées au rythme de plusieurs centaines de milliers de gigaoctets par jour
  • Il faudrait 625 000 des plus gros modèles d’iPod (160 Go) pour contenir toutes les données (une information capitale donnée par Google)
Google précise enfin que si Caffeine est bien plus en phase avec le contenu actuel du Web, il est aussi mieux armé pour le futur. La firme pourra mettre à jour en effet son moteur d’indexation plus facilement. Elle précise par ailleurs que toutes les annonces ne sont pas finies, et que d’autres nouveautés sont en approche pour les mois qui viennent.