Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Google référence 120 000 milliards d'URL, dont 60 % avec du contenu en double

Une paille
Internet 1 min
Google référence 120 000 milliards d'URL, dont 60 % avec du contenu en double
Crédits : Alexei Tacu/iStock/ThinkStock

Google référence un nombre très important de pages sur le web, mais il est souvent difficile d'avoir une fourchette précise. Lors d'une conférence, un de ses responsables a annoncé qu'il existe 120 000 milliards d'URL dans son index, dont 60 % contiennent du contenu en double.

Lors de la conférence State of Search qui se déroulait récemment à Dallas aux États-Unis, Gary Illyes, Webmaster Trends Analyst chez Google, était monté sur scène. L'occasion pour ce dernier de donner quelques chiffres sur le moteur de recherche, notamment repris par StewArtMedia et TheSemPost.

Il a ainsi annoncé que Google connaissait pas moins de 120 000 milliards d'URL, une information que le moteur de recherche ne dévoile que très rarement. Pour rappel, début 2013 le géant du Net avait publié une infographie où il revendiquait que son index référençait 30 000 milliards de pages et occupait un espace de 100 000 To. Dans tous les cas, c'est donc une multiplication par quatre en moins de trois ans. 

Tout aussi intéressant (et étonnant), Gary Illyes ajoute que 60 % des URL actuellement référencées par le moteur de recherche contiennent du contenu en double (ou duplicate content). Sur cette page, le moteur de recherche explique qu'il s'agit généralement de « blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants ». Il n'en reste pas moins que sur les 120 000 milliards d'URL, plus de 70 000 milliards (excusez du peu) correspondent apparemment à cette définition.

16 commentaires
Avatar de Tumeconnais INpactien
Avatar de TumeconnaisTumeconnais- 20/11/15 à 08:32:59

Si on résume, beaucoup de porno, beaucoup de doublons, il reste pas grand chose en faite sur Internet.

Avatar de v1nce INpactien
Avatar de v1ncev1nce- 20/11/15 à 08:38:21

J'aurai pensé à plus de doublons.

Avatar de zefling Abonné
Avatar de zeflingzefling- 20/11/15 à 08:44:08

120 billion, ça fait combien de lien inutile qui ne pointe sur rien d'intéressant ? (en plus de doubles)

Avatar de jb18v Abonné
Avatar de jb18vjb18v- 20/11/15 à 08:56:48

Et combien de liens qui viennent des aggrégateurs de bordel comme FirstSlice, Buzzfeed et consort ? :transpi:

100 000 To :eek:

Avatar de Lochnar Abonné
Avatar de LochnarLochnar- 20/11/15 à 09:12:43

Bah c'est pas tant que ça, le moindre datacenter dispose normalement de plusieurs Petaoctets (donc plusieurs dizaines de milliers de Teraoctets). Et Google a beaucoup, beaucoup de datacenter.

Avatar de anonyme_a6c552c5fb4282d70e634ed16d39416a INpactien

Ce qui l'étonne plus, je pense, c'est la taille de l'index en lui-même et non la volumétrie dont on peut disposer.

Avatar de Vekin Abonné
Avatar de VekinVekin- 20/11/15 à 10:09:20

Ils entendent quoi précisément par URL ? Le nombre de pages, concrètement ?

Avatar de jb18v Abonné
Avatar de jb18vjb18v- 20/11/15 à 10:10:57

tout à fait :ouioui::smack:

Avatar de Drepanocytose Abonné
Avatar de DrepanocytoseDrepanocytose- 20/11/15 à 10:15:52

100.000 To, rien que pour l'index :transpi:

Par index ils entendent quoi ? Juste la liste des URL, ou quoi d'autre comme données qui accompagne chaque URL ? Un descriptif, une partie en cache ? Ou bien juste la liste ?

Avatar de SFX-ZeuS INpactien
Avatar de SFX-ZeuSSFX-ZeuS- 20/11/15 à 10:17:19

J'ai jamais travaillé dans le domaine du big data mais franchement ça donne envie ! Sacré défis d'avoir des temps de réponse aussi rapide avec autant de données.

Édité par SFX-ZeuS le 20/11/2015 à 10:17
Il n'est plus possible de commenter cette actualité.
Page 1 / 2