Google vient d’annoncer avoir terminé une évolution particulièrement importante de son moteur de recherche. En dépit de l’énorme diversification de la firme ces dernières années, trouver une information sur le Web reste le coeur de son activité, et c’est ici qu’entre en piste Caffeine. Il s’agit tout simplement du nom du nouveau moteur d’indexation de la firme, et l’on peut dire qu’il dévore littéralement le Web.
Le Web subit une évolution qui force les sociétés qui l’explorent et l’indexent à changer leurs méthodes. On l’a vu avec Microsoft et son moteur Bing, dont les dernières évolutions prennent par exemple les messages postés sur les comptes Twitter. Mais ces derniers ne sont qu’un exemple des nouveaux défis qui sont apparus : le caractère immédiat de l’information, les vidéos, les images, les articles de presse et toutes les mises à jour en temps réel sont autant de données à prendre en compte.
Caffeine change le mode de fonctionnement du moteur d'indexation. Comme le montre l’image ci-dessus, l’actuel est basé sur un modèle en couches, chacune d’entre elles visant un type de contenu particulier. Les couches se mettent à jour séparément les unes des autres, mais pour qu’une telle mise à jour se fasse, c’est le Web entier qui doit être analysé.
Le nouveau modèle fonctionne en permanence et fragmente le Web en petites cellules qui sont analysées presque en permanence. Le bénéfice immédiat, selon Google, est une apparition bien plus rapide des nouvelles entrées dans les résultats du moteur de recherche. Dès qu’une nouvelle information est trouvée, elle est ajoutée dans la foulée à l’index, ce qui permet à Google d’affirmer que le moteur renvoie maintenant 50 % de résultats « frais » supplémentaires.
L’infrastructure que cela suppose est tout bonnement titanesque. Voici d’ailleurs quelques chiffres :
Le Web subit une évolution qui force les sociétés qui l’explorent et l’indexent à changer leurs méthodes. On l’a vu avec Microsoft et son moteur Bing, dont les dernières évolutions prennent par exemple les messages postés sur les comptes Twitter. Mais ces derniers ne sont qu’un exemple des nouveaux défis qui sont apparus : le caractère immédiat de l’information, les vidéos, les images, les articles de presse et toutes les mises à jour en temps réel sont autant de données à prendre en compte.
Caffeine change le mode de fonctionnement du moteur d'indexation. Comme le montre l’image ci-dessus, l’actuel est basé sur un modèle en couches, chacune d’entre elles visant un type de contenu particulier. Les couches se mettent à jour séparément les unes des autres, mais pour qu’une telle mise à jour se fasse, c’est le Web entier qui doit être analysé.
Le nouveau modèle fonctionne en permanence et fragmente le Web en petites cellules qui sont analysées presque en permanence. Le bénéfice immédiat, selon Google, est une apparition bien plus rapide des nouvelles entrées dans les résultats du moteur de recherche. Dès qu’une nouvelle information est trouvée, elle est ajoutée dans la foulée à l’index, ce qui permet à Google d’affirmer que le moteur renvoie maintenant 50 % de résultats « frais » supplémentaires.
L’infrastructure que cela suppose est tout bonnement titanesque. Voici d’ailleurs quelques chiffres :
- Caffeine réunit pratiquement 100 millions de gigaoctets de données, soit 100 000 To, au sein d’une unique base de données
- Les nouvelles informations sont ajoutées au rythme de plusieurs centaines de milliers de gigaoctets par jour
- Il faudrait 625 000 des plus gros modèles d’iPod (160 Go) pour contenir toutes les données (une information capitale donnée par Google)