Archive.org : 5 Po de données et 240 milliards d'URL sauvegardées

Archive.org : 5 Po de données et 240 milliards d’URL sauvegardées

Le web des années 2000 c'était... autre chose

Avatar de l'auteur
Sébastien Gavois

Publié dans

Internet

12/01/2013 2 minutes
69

Archive.org : 5 Po de données et 240 milliards d'URL sauvegardées

Archive.org, le célèbre service qui nous permet de voyager dans le temps d'Internet, vient de se mettre à jour et en profite pour dévoiler quelques chiffres intéressants. Nous apprenons ainsi que sa base de données comporte désormais pas moins de 240 milliards d'URL, pour un total de près de 5 Po, soit 5 000 To.

pcinpact.com archive.org pcinpact.com archive.org

PC INpact le 3 janvier 2007 puis le 1er juillet 2011

 

Archive.org crée régulièrement des captures de très nombreux sites web présents sur la toile, les premiers échantillons remontent à fin 1996 (exemple : Intel ou encore Yahoo) et les derniers datent du 9 décembre 2012. S'il est impossible de réaliser une capture complète du web, le service tente de s'en approcher et ne cesse de grossir. Alors que sa base de données comportait 150 milliards d'URL il y a peu, la nouvelle mouture en intègre désormais 240 milliards. 

 

L'espace de stockage occupé est à la hauteur de la démesure : 5 Po, soit 5 000 000 Go, excusez du peu. Notez que l'organisation a récemment annoncé qu'elle avait récolté assez de dons pour acheter 4 Po supplémentaires, passant ainsi sa capacité de stockage totale à 10 Po... ce qui devrait être suffisant pour l'année 2013.

 

wikipedia 2003

Le 7 février 2003, la version francophone de Wikipedia comptait 5 040 articles, contre 1 339 643 aujourd'hui

 

Cette « machine à voyager dans le temps » semble toujours aussi prisée des internautes puisque Archive.org annonce pas moins de 1000 requêtes par seconde sur sa BDD et 500 000 visiteurs par jour. Quoi qu'il en soit, pour en profiter, il suffit de vous rendre sur cette page et d'entrer l'adresse du site concerné.

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Commentaires (69)


Le 12/01/2013 à 12h 52

http://web.archive.org/web/20030506002249[http://www.pcinpact.com/](http://www.pcinpact.com/">http://www.pcinpact.com/



Nostalgie quand tu nous tiens <img data-src=" />



<img data-src=" />


RIP Inpact Virtuel <img data-src=" />


Wow Wikipédia a bien changé <img data-src=" />



Par contre, PCInpact… Pas tant que ça <img data-src=" />


http://www.inpactvirtuel.com/” target=”_blank” rel=“nofollow”>Inpactvirtuel/


C’est peut-être bête mais en regardant les deux screen de l’actu, j’ai tendance à spontanément dire que je préfère celui de gauche (seul le logo fait un peut vieillot) <img data-src=" />


J’avais oublié comment c’était aussi moche au début :

Ma-Config.com 2004

<img data-src=" />


Bah en fait depuis 2007 PCInpact n’a pas changé…

On nous aurait menti ! <img data-src=" />

<img data-src=" /> <img data-src=" />


Je souhaite bonne chance à archives.org avant qu’il ne tombe, comme le DP, dans l’exception culturelle. et les mains de la Sacem & Co <img data-src=" />








Berri-UQAM a écrit :



Wow Wikipédia a bien changé <img data-src=" />



Par contre, PCInpact… Pas tant que ça <img data-src=" />







Honnêtement, je préférais PCINpact avant le passage à la V5, mais bon, ‘faut vivre avec son temps, y parait. <img data-src=" />

Tant que la qualité des articles reste bonne, ce n’est pas grave.



sniff …



http://web.archive.org/web/20080714120337/http://www.inpactvirtuel.com/




L’espace de stockage occupé est à la hauteur de la démesure : 5 Po, soit 5 000 000 Go, excusez du peu.



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?


C’est le topic des liens foireux ici ? <img data-src=" />



Je regarde une page de PCI au hasard de la timeline (6 janvier 2007), et je tombe sur cette news :

C’est fait : Hitachi lance le premier disque dur de 1000 Go !



C’est-y pas mignon ? <img data-src=" />





Bonus track :



News : Apple - Dashcode est disponible en version 1.00 bêta

Sous-titre : Arielcode ou Vizircode, ça ne sonnait pas assez bien



<img data-src=" />



<img data-src=" />


‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />








Muzikals a écrit :



‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />







Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />









Muzikals a écrit :



‘tin, ça permet aussi de revoir les sites qui ont disparus depuis … séquence nostalgie et l’arme à l’oeil <img data-src=" />







Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !



nostalgie :http://web.archive.org/web/20021121004921/http://www.inpact-hardware.com/


Savoir que l’œuvre de Jvachez est préservée pour l’édification des générations futures, ça fait chaud au cœur…


Service très intéressant. Par contre je trouve que 5 000 To c’est relativement peu.








nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





Beaucoup Beaucoup plus









kipoos a écrit :



nostalgie :http://web.archive.org/web/20021121004921/http://www.inpact-hardware.com/







ha oué pinaise j’avais oublié lol









izbing a écrit :



RIP Inpact Virtuel <img data-src=" />





Bof, le site était un peu trop partisan dans sa ligne éditorial.. L’effet devait être assez tangible selon moi même si il est trop tard pour faire une analyse;.









charon.G a écrit :



J’avais oublié comment c’était aussi moche au début :

Ma-Config.com 2004

<img data-src=" />





Qu’au début? <img data-src=" />







<img data-src=" />









Tolor a écrit :



Qu’au début? <img data-src=" />







<img data-src=" />





<img data-src=" /> c’est DLB qui va être content.

Ceci dit il y a eu plusieurs design par le passé qui étaient bien moche. <img data-src=" />

J’aime bien le dernier design. J’aimais bien aussi le précédent à part l’ergonomie qui était atroce.









nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





À mon avis, 10 Po pour Google c’est quasiment rien. 5 000 disques de 1 To, c’est probablement même pas le centième d’un de leur data center.



ce qui me frappe le plus ce sont les superlatifs utilisés à profusion pour les noms de CG ou carte son de l’époque.









iFrancois a écrit :



Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !







Mon dieu <img data-src=" /> comment j’ai pu écrire un truc pareil !<img data-src=" />









SebGF a écrit :



Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />







Idem !

Je suis aussi passé voir … caramail <img data-src=" />









nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?





Mi-2011, PCI rapportait les chiffres d’une étude estimant le nombre de

serveurs à environ 900.000 (basée sur la consommation électrique officielle).



Si quelqu’un sait ce que contient en moyenne un serveur

Google on peut faire une vague estimation à partir de là.





Dans le même article, il est rappelé aussi les chiffres d’une

autre étude, plus vieille (2009), faisant quelques estimations :





  • Facebook : ~30.000

  • Amazon, eBay, Yahoo!, IBM : ~50.000

  • Microsoft : entre 500.000 et 600.000

  • Google : entre 2.000.000 et 3.000.000



    Même à considérer que ces chiffres étaient justes,

    ils ont dû encore considérablement augmenter depuis 3 ans.





    Enfin bref, globalement c’est totalement démentiel<img data-src=" />









Muzikals a écrit :



Mon dieu <img data-src=" /> comment j’ai pu écrire un truc pareil !<img data-src=" />







C’est cela qu’on appelle lancer un regard tueur? <img data-src=" />









SebGF a écrit :



Je viens de me payer une séance nostalgie en retrouvant l’historique de mon site et les premiers que j’ai fait en me disant … “Naaaan comment j’ai pu faire çaaaa c’est trop moche” <img data-src=" />





Pareil, et dire que ça reste dans les archives



@ SebGF et zefling : faites péter les liens <img data-src=" />



<img data-src=" />


En tout cas, ce qui n’a pas changé chez PCI c’est les liens foireux dans les commentaires. <img data-src=" />








127.0.0.1 a écrit :



En tout cas, ce qui n’a pas changé chez PCI c’est les liens foireux dans les commentaires. <img data-src=" />







Feature monsieur <img data-src=" />









P-A a écrit :



Feature monsieur <img data-src=" />







<img data-src=" /> Comme c’est pas crédible, surtout que les liens auto ce n’est pas ce qu’il y a de plus compliqué à coder.









nicobiz a écrit :



Est-ce qu’on a pour ordre d’idée, ce que Google ou d’autres grands sites possèdent comme capacité?







Il y a 2-3 ans on parlait du passage de Google à 1 exabyte et j’imagine que ca a encore bien augmenté.



Mais c’est tout sauf précis : est-ce qu’on parle de capacité pur de la somme des disques durs, ou de la capacité réelle des RAIDs ? d’ailleurs ce n’est peut être même pas la capacité mais la taille des données, et dans ce cas avec ou sans la déduplication, la compression … ?

Bref un chiffre comme ça c’est beaucoup trop vague et comme Google ne communique pas là dessus … on en sait rien :)









bzc a écrit :



Il y a 2-3 ans on parlait du passage de Google à 1 exabyte et j’imagine que ca a encore bien augmenté.





Ça doit douiller en Rcp<img data-src=" />









zefling a écrit :



<img data-src=" /> Comme c’est pas crédible, surtout que les liens auto ce n’est pas ce qu’il y a de plus compliqué à coder.







Y a meme des gens qui ont cherché un”Accurate Regex Pattern for Matching URLs”, et ca semble marcher pas mal. <img data-src=" />



Le 12/01/2013 à 19h 12







sioowan a écrit :



Il vient de rejoindre le grand Archiviste.







<img data-src=" /> pour ne pas avoir de new ici à ce sujet





5 Po de données



Ca fait combien de disquette 1.44 tout ça ?<img data-src=" />








Ricard a écrit :



Ca fait combien de disquette 1.44 tout ça ?<img data-src=" />







Ca en fait 3.623.188.405,79 approximativement :p









sitesref a écrit :



Ca en fait 3.623.188.405,79 approximativement :p





Ca fait moins si les 5 Po sont donnes comme les constructeurs de DD le font <img data-src=" />

5.10^15/(1.44*1024^2)~=3,331,369,154









ldesnogu a écrit :



Ca fait moins si les 5 Po sont donnes comme les constructeurs de DD le font <img data-src=" />

5.10^15/(1.44*1024^2)~=3,331,369,154







Je ne prenais pas en compte la classique fourberie des fabricants de DD… Mais toi tu ne prends pas en compte celle des fabricants de disquettes, qui n’ont un espace utilisable que de 1.38 Mo ^^



Ha mais les disquettes c’etait de vrais mo a l’ancienne ! Avec 80 pistes de 18 secteurs de 512 octets sur 2 faces, ca arnaquait moins a l’epoque <img data-src=" />








iFrancois a écrit :



Reculez ! J’ai un oeil et j’hésiterai pas à m’en servir !





<img data-src=" />









sitesref a écrit :



Je ne prenais pas en compte la classique fourberie des fabricants de DD…







Une fourberie qui existe depuis les premiers disques durs, bref quand tu le sais. (Vérifié sur mon premier disque dur de 20 Mo)

Et pour les disquettes 1.44 c’est 1.44×1000×1024, si ça c’est pas fourbe. :P









sitesref a écrit :



Je ne prenais pas en compte la classique fourberie des fabricants de DD…







Apparemment un fabricant de disque dur utilise la bonne notation normalisée : le préfixe SI qui compte de 1000 en 1000.



Windows semble être le seul OS (que j’utilise pourtant beaucoup, et avec plaisir, je précise) qui ne respecte pas la norme, en affichant par exemple “1 Go” alors que c’est “1 Gio”.



En plus clair Windows compte avec le préfixe Binaire (Kio, Mio, Gio, Tio, etc… de 1024 en 1024) mais affiche les noms du préfixe SI, ce qui est trompeur je trouve.



On se retrouve avec des choses aberrantes comme un disque dur de 1 To qui fait bien 1000 Go mais Windows affiche 931 Go (Gio en réalité).



Il serait bon que tous les constructeurs et éditeurs se mettent d’accord sur un seul préfixe à utiliser, et ne mélangent pas les 2 <img data-src=" />









Etre_Libre a écrit :



On se retrouve avec des choses aberrantes comme un disque dur de 1 To qui fait bien 1000 Go mais Windows affiche 931 Go (Gio en réalité).







Pas toujours vrai, il garde une partie pour la table des registres créée au moment du formatage et l’identité du formatage pour être reconnu et pour être lancé



Il est vrai de se demander si c’est vraiment 1T ou 0.9xx T



2show7 : le formatage n’occupe que quelques Mo à quelques centaines en étant large… ça n’explique pas 69 Go “manquants” sur un 1000 Go.



Par contre un simple calcul de conversion l’explique :



Préfixe SI (1000 en 1000) :

1000 Go = 1 000 000 Mo = 1 000 000 000 Ko = 1 000 000 000 000 octets



Conversion en préfixe binaire (1024 en 1024) :

1 000 000 000 000 octets = 976562500 Kio = 953674,31640625 Mio = 931,32 Gio (arrondi)



On obtient donc bien pile 931 Gio, mais visibles comme “931 Go” par Windows.



Il suffit de faire quelques essais avec Linux, Mac et Windows, avec le même disque dur ou les mêmes fichiers, selon les normes utilisées (ou déformées), on obtient des résultats parfois étonnants, mais qui ont une logique.


Un DD peut-être plein même s’il reste de la place, c’est parce que la place réservée à la table des registres est pleine (beaucoup trop de petits fichiers)



Mais on peu le modifier en reformattant et en changeant la place réservée (notamment pour des films qui ne prennent pas beaucoup de place dans les registres)


Plutôt parce que les films sont de gros fichiers.



Mais sur un DD une place plus grande réservée est une assurance pour loger des programmes d’ordi et pas que des films


Mon site en 2003:

http://www.manusfreedom.com/index.php” target=”_blank” rel=“nofollow”>http://web.archive.org/web/20030713185352[http://www.manusfreedom.com/index.php](http://www.manusfreedom.com/index.php">http://www.manusfreedom.com/index.php

Le premier que j’ai hébergé directement chez moi.

J’aimais bien mon Framework PHP (OSWeb, un peu prétentieux je sais), il était très flexible pour l’époque… <img data-src=" />

Nostalgie… <img data-src=" />








Reznor26 a écrit :



Enfin bref, globalement c’est totalement démentiel<img data-src=" />





Tiens, je ne savais pas que Google faisait du ModernUI ^^









sitesref a écrit :



Ca en fait 3.623.188.405,79 approximativement :p





<img data-src=" />









manus a écrit :



Mon site en 2003:

http://www.manusfreedom.com/index.php” target=”_blank” rel=“nofollow”>http://web.archive.org/web/20030713185352[http://www.manusfreedom.com/index.php](http://www.manusfreedom.com/index.php">http://www.manusfreedom.com/index.php

Le premier que j’ai hébergé directement chez moi.

J’aimais bien mon Framework PHP (OSWeb, un peu prétentieux je sais), il était très flexible pour l’époque… <img data-src=" />

Nostalgie… <img data-src=" />





404 - File or directory not found.<img data-src=" />



http://web.archive.org/web/20080314042206[http://www.inpactvirtuel.com/](http://www.inpactvirtuel.com/">http://www.inpactvirtuel.com/ <img data-src=" />



Edit : Un copie/colle de l’URL et hgop !


Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />








charon.G a écrit :



Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />





Euh si je te dis que j’y ai pensé mais que je me suis dis “Non quand même, pas ça…” <img data-src=" />



/me va se pendre… <img data-src=" />









zefling a écrit :



À mon avis, 10 Po pour Google c’est quasiment rien. 5 000 disques de 1 To, c’est probablement même pas le centième d’un de leur data center.





A la différence que “a priori” google ne stocke pas les anciennes pages, mais que les dernieres…









charon.G a écrit :



Pour ceux qui veulent mettre des url de web.archive sur PCI utilisez tinyurlsinon ça ne marche pas <img data-src=" />





past.is c’est français et c’est bien plus drôle <img data-src=" />









jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





Je ne connaissais pas en effet il vaut mieux utiliser celui là <img data-src=" />









jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





Ah quand même. <img data-src=" />









jinge a écrit :



past.is c’est français et c’est bien plus drôle <img data-src=" />





J’adore, adopte <img data-src=" />









jinge a écrit :



A la différence que “a priori” google ne stocke pas les anciennes pages, mais que les dernieres…





Sauf que tu oublies que google c’est :




  • le moteur de recherche (texte, images, …)

  • you tube (sûrement ce qui prend le plus de place)

  • google doc

  • google plus

  • google map

    etc.



    Donc que ça soit que les dernières pages, à limite on s’en fout, surtout s’il y en plusieurs centaines de milliard.









zefling a écrit :



Sauf que tu oublies que google c’est :




  • le moteur de recherche (texte, images, …)

  • you tube (sûrement ce qui prend le plus de place)

  • google doc

  • google plus

  • google map

    etc.



    Donc que ça soit que les dernières pages, à limite on s’en fout, surtout s’il y en plusieurs centaines de milliard.





    Je ne parlais que l’équivalent de archive.org, sinon c’est sûr que google maps à lui tout seul a à peu la même taille, et youtube n’en parlons pas….. C’est sans équivalent!





    ldesnogu a écrit :



    J’adore, adopte <img data-src=" />









    Aces a écrit :



    Ah quand même. <img data-src=" />





    Je l’utilise même au taf, pour l’instant je n’ai pas eu de remarques, je ne sais pas s’ils lisent les URL avant de cliquer <img data-src=" />



comment Archive.org est il financé?