Google référence 120 000 milliards d’URL, dont 60 % avec du contenu en double

Une paille

Google référence un nombre très important de pages sur le web, mais il est souvent difficile d'avoir une fourchette précise. Lors d'une conférence, un de ses responsables a annoncé qu'il existe 120 000 milliards d'URL dans son index, dont 60 % contiennent du contenu en double.

Lors de la conférence State of Search qui se déroulait récemment à Dallas aux États-Unis, Gary Illyes, Webmaster Trends Analyst chez Google, était monté sur scène. L'occasion pour ce dernier de donner quelques chiffres sur le moteur de recherche, notamment repris par StewArtMedia et TheSemPost.

Il a ainsi annoncé que Google connaissait pas moins de 120 000 milliards d'URL, une information que le moteur de recherche ne dévoile que très rarement. Pour rappel, début 2013 le géant du Net avait publié une infographie où il revendiquait que son index référençait 30 000 milliards de pages et occupait un espace de 100 000 To. Dans tous les cas, c'est donc une multiplication par quatre en moins de trois ans.

Tout aussi intéressant (et étonnant), Gary Illyes ajoute que 60 % des URL actuellement référencées par le moteur de recherche contiennent du contenu en double (ou duplicate content). Sur cette page, le moteur de recherche explique qu'il s'agit généralement de « blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants ». Il n'en reste pas moins que sur les 120 000 milliards d'URL, plus de 70 000 milliards (excusez du peu) correspondent apparemment à cette définition.

about 60% of the 120 TRILLION URLs on the internet are duplicates, according to @methode. #StateofSearch

— DFWSEM (@dfwsem) November 16, 2015

Commentaires (16)

Tumeconnais

Le 20/11/2015 à 08h 32

Si on résume, beaucoup de porno, beaucoup de doublons, il reste pas grand chose en faite sur Internet.

v1nce

Le 20/11/2015 à 08h 38

J’aurai pensé à plus de doublons.

zefling Abonné

Le 20/11/2015 à 08h 44

120 billion, ça fait combien de lien inutile qui ne pointe sur rien d’intéressant ? (en plus de doubles)

jb18v

Le 20/11/2015 à 08h 56

Et combien de liens qui viennent des aggrégateurs de bordel comme FirstSlice, Buzzfeed et consort ? " />

100 000 To :eek:

Lochnar

Le 20/11/2015 à 09h 12

Bah c’est pas tant que ça, le moindre datacenter dispose normalement de plusieurs Petaoctets (donc plusieurs dizaines de milliers de Teraoctets). Et Google a beaucoup, beaucoup de datacenter.

anonyme_a6c552c5fb4282d70e634ed16d39416a

Le 20/11/2015 à 09h 52

Ce qui l’étonne plus, je pense, c’est la taille de l’index en lui-même et non la volumétrie dont on peut disposer.

Vekin

Le 20/11/2015 à 10h 09

Ils entendent quoi précisément par URL ? Le nombre de pages, concrètement ?

Le 20/11/2015 à 10h 10

tout à fait " />" />

Anonyme_f7d8f7f164fgnbw67p

Le 20/11/2015 à 10h 15

100.000 To, rien que pour l’index " />

Par index ils entendent quoi ? Juste la liste des URL, ou quoi d’autre comme données qui accompagne chaque URL ? Un descriptif, une partie en cache ? Ou bien juste la liste ?

SFX-ZeuS

Le 20/11/2015 à 10h 17

#10

J’ai jamais travaillé dans le domaine du big data mais franchement ça donne envie ! Sacré défis d’avoir des temps de réponse aussi rapide avec autant de données.

Nilav

Le 20/11/2015 à 10h 47

#11

Beaucoup de choses. Mais il ne faut pas se dire que leur “index” = 1 table dans leur BDD, ils en ont peut-être plusieurs, dans tous les cas, ils doivent t’optimiser ça aux petits oignons.

Ils expliquent pas mal de chosesici.

De base, il suffit de réfléchir à ce dont ils ont besoin pour afficher un résultat de recherche soit :

Un titre

Une description

Une miniature d’image “statique” (Google News - elle pèse moins de 4ko en moyenne) ou une miniature en base64 (Google Images)

Tout ce qui a rapport au knowledge graph, schema.org et consort dont ils ont besoin

Et surtout, le contenu des pages elles-mêmes en texte (équivalent de ce que l’on peut voir en version cache je suppose) pour que leur algorithme puisse vérifier la pertinence d’une page par rapport à la recherche effectuée.

Ils ne peuvent pas se permettre d’avoir une dépendance avec le site d’une page pertinente pour récupérer des éléments (indisponibilité temporaire). Ce ne serait pas bon non plus pour le site lui-même qui serait sollicité inutilement. C’est pour ça que la fréquence du crawl a une influence forte sur l’indexation.

freefree33

Le 20/11/2015 à 10h 50

#12

les lidd tante de répondre a cette question!

 

Le 20/11/2015 à 11h 48

#13

freefree33 a écrit :

les lidd tante de répondre a cette question!

 

Ben mon n’veu !

Le 20/11/2015 à 12h 55

#14

C’est une histoire de famille " />

Ler van keeg

Le 20/11/2015 à 19h 33

#15

Dire qu’on se fait taper sur les doigts en cas de duplicate content…

Ce n’est pas pour améliorer la pertinence, mais pour soulager leur index en fait ! Aha !

Daikyoka

Le 21/11/2015 à 09h 43

#16

Oui c’est ça, une URL est l’adresse d’une ressource, que ce soit une page, une image, une vidéo, etc. Quand tu tapes le nom de domaine d’un site dans la barre d’adresse, tu demandes la ressource “index”, la ressource racine.

Catégories

Nous suivre

À propos

Google référence 120 000 milliards d’URL, dont 60 % avec du contenu en double

Une paille

Tiens, en parlant de ça :

[Édito] Au pays des VPN menteurs…

Article sponsorisé par les lecteurs de Next

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Le progrès <3

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

NSA.I

Sommaire de l'article

Introduction

[Édito] Au pays des VPN menteurs…

Les clients LastPass victimes d’une attaque par phishing orchestrée grâce à un kit clé en main

Les recommandations de la NSA pour « déployer des systèmes d’IA en toute sécurité »

#LeBrief : Windows Store amélioré, 28 licenciements chez Google, sécurité des données des français, compétition 404CTF

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

Commentaires (16)