Google référence un nombre très important de pages sur le web, mais il est souvent difficile d'avoir une fourchette précise. Lors d'une conférence, un de ses responsables a annoncé qu'il existe 120 000 milliards d'URL dans son index, dont 60 % contiennent du contenu en double.
Lors de la conférence State of Search qui se déroulait récemment à Dallas aux États-Unis, Gary Illyes, Webmaster Trends Analyst chez Google, était monté sur scène. L'occasion pour ce dernier de donner quelques chiffres sur le moteur de recherche, notamment repris par StewArtMedia et TheSemPost.
Il a ainsi annoncé que Google connaissait pas moins de 120 000 milliards d'URL, une information que le moteur de recherche ne dévoile que très rarement. Pour rappel, début 2013 le géant du Net avait publié une infographie où il revendiquait que son index référençait 30 000 milliards de pages et occupait un espace de 100 000 To. Dans tous les cas, c'est donc une multiplication par quatre en moins de trois ans.
Tout aussi intéressant (et étonnant), Gary Illyes ajoute que 60 % des URL actuellement référencées par le moteur de recherche contiennent du contenu en double (ou duplicate content). Sur cette page, le moteur de recherche explique qu'il s'agit généralement de « blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants ». Il n'en reste pas moins que sur les 120 000 milliards d'URL, plus de 70 000 milliards (excusez du peu) correspondent apparemment à cette définition.
about 60% of the 120 TRILLION URLs on the internet are duplicates, according to @methode. #StateofSearch
— DFWSEM (@dfwsem) November 16, 2015