Google vient de mettre en ligne une infographie interactive afin de détailler un peu le principe de fonctionnement de son moteur de recherche. Le géant du web en profite pour dévoiler au passage quelques chiffres qui donnent le vertige : 30 000 milliards de pages web sont référencées via un index qui occupe 100 000 To.
Google a décidé de donner quelques informations sur son moteur de recherche et, pour cela, le géant du web a mis en place une infographie interactive baptisée : « How Search Works. From algorithms to answers » (Comment fonctionne la recherche. Des algorithmes aux réponses).
Bien évidemment, cela commence par naviguer sur le net afin de récupérer un maximum de données. Google indique référencer ainsi 30 000 milliards de pages web (soit plus de 4 000 par être humain) au sein d'un index qui occupe 100 000 To d'espace de stockage, excusez du peu.
Lorsque vous saisissez une requête, Google va d'abord se servir d'algorithmes maison afin de mieux comprendre votre demande (autocomplétion, correction orthographique, étude des synonymes, etc.). Les pages intéressantes sont ensuite récupérées via l'index dont nous vous parlions, avant d'être triées en fonction de divers critères : « qualité » du site et de la page, ancienneté sur le web, géolocalisation, etc.
Au final, Google annonce qu'entre le moment où vous validez votre recherche et celui où il vous retourne les résultats correspondants, il ne se passe que 0,125 seconde.
Une troisième partie s'intéresse enfin à la gestion du spam et aux différentes actions mises en place pour en supprimer un maximum, et ce, de manière automatique.
Bien évidemment, l'ensemble est schématisé et largement simplifié, mais les chiffres annoncés n'en restent pas moins intéressants. N'hésitez pas à cliquer sur les éléments qui composent cette infographie afin d'obtenir des détails sur certains points.
- Accéder à l'infographie interactive. (en anglais).
Commentaires (52)
#1
Google indique référencer ainsi 30 000 milliards de pages web
[…]
Au final, Google annonce qu’entre le moment où vous validez votre recherche et celui où il vous retourne les résultats correspondants, il ne se passe que 0,125 seconde.
" />" />" />
Edit : j’adore le “Cats” qui remonte sur une recherche “string theory” " />
#2
Les chiffres, ça impressionne toujours " />
#3
sans parler du nombre de serveurs de recherche ainsi que ceux de secours et tout ce qui va avec….Je me demande combien ils ont dépensé rien qu’en PCs…" />
#4
#5
#6
#7
Bien évidemment, l’ensemble est schématisé et largement simplifié
En effet et c’est dommage, j’aurais préféré qu’ils nous parlent de MapReduce, BigTable, GoogleFS …
#8
Sinon j’adore à la fin la partie sur le combat du SPAM.
Dans ce cas la pourquoi ne pas inclure dans leur infographie leur méthode de collecte des données personnelles et de gestion des cookies lors de nos recherches ?
En gros une bien belle pub’ qui reste ce qu’elle est: une pub…
#9
4.000 pages par être humain. Comme quoi il y a du doublon et des pages inutiles.
#10
#11
#12
#13
#14
30 Trillions de pages webs pour un index de 100 000 To.
…. ça fait beaucoup de données par page web.
#15
Le chat dans la théorie des cordes" />
#16
#17
“By the way, in the 452 seconds you’ve been on this page, approximately
17,438,160 searches were performed.”
Ah ouais, quand même…
#18
Quand on y pense c’est quand meme la folie, Google télécharge littéralement internet pour faire son indexation, pas juste une ou deux pages par ci par la, Internet dans sa globalité, et les 100 000to c’est juste pour l’indexation, brrrrrrr
#19
#20
Je trouve ces chiffres un peu décourageant pour toute les sociétés qui souhaiteraient créer un nouveau moteur de recherche :-(
#21
#22
#23
C’est quoi comme techno leur système de BDD d’ailleurs ?
C’est du maison ou ils utilisent quelque chose qui existe ?
#24
#25
#26
#27
#28
#29
#30
#31
#32
C’est toujours ce temps de réponse qui m’a impressionné: comment traiter toutes ces données aussi rapidement?
#33
Ce qui fait tourner la tête, c’est quand on se dit qu’il y a youtube aussi.
#34
#35
#36
#37
#38
#39
#40
#41
Lorsque vous saisissez une requête, Google va d’abord se servir d’algorithmes maison afin de mieux comprendre votre demande (autocomplétion, correction orthographique, étude des synonymes, etc.).
Rah qu’est-ce que je déteste ça qu’il corrige automatiquement sans demander ton avis " /> !
Du coup il m’arrive souvent d’avoir des résultats sans aucun rapport avec ce que je recherche. Un exemple bidon (référence à la news de 14:44 " />), je cherche des étais en solde, il me sort ça : https://www.google.fr/search?q=solde+étai (et cliquer sur “Essayez avec l’orthographe solde étai” donne le même genre de résultats avec juste “été” qui n’est plus mis en gras " /> ).
#42
#43
#44
#45
#46
#47
#48
30 000 milliards de pages
C’est l’équivelent du gouvernement pour la lutte contre le chomage " />
#49
#50
ce qui m’impressionne c’est qu’en France on est pas foutu de faire un moteur semblable ?
me dites pas que tous les mathématicien/analystes de la Terre sont chez Google ?
bon ils ont aussi peut être autre chose à faire mais c’est extraordinairement important !
#51
#52
non je ne pense pas, bien au contraire, il suffit du moteur de recherche, après c’est comme google , avec le fric de la pub tu mets + de serveurs etc
enfin techniquement je vois ça comme ça, mais plus la partie politique qu’il faudrait développer