Archive.org dépasse les 400 milliards de pages sauvegardées

Marty et Doc peuvent se rhabiller

C'est un nouveau cap que viennent de dépasser le site Archive.org et sa machine à voyager dans le temps : 400 milliards de pages sont sauvegardées. Le site en profite pour établir une petite rétrospective depuis son lancement.

Voyageons dans le temps avec feu PC INpact

Archive.org est bien connu des nostalgiques du web et de ceux qui cherchent à connaître les différentes évolutions d'un site internet. En effet, via sa « Way Back Machine », ou machine à remonter le temps, il propose des captures d'une multitude de sites à différentes périodes. Les premières datent de 1996, tandis que les plus récentes n'ont que quelques heures.

L'année dernière, Archive.org annonçait les 240 milliards de pages web indexées, un chiffre qui a fait un bond en l'espace de 16 mois puisque la barre des 400 milliards vient d'être dépassée, 411 milliards exactement à l'heure où nous écrivons ces lignes), soit une moyenne de 10 milliards de plus par mois. À ce rythme-là, le demi-billion devrait arriver d'ici l'année prochaine.

L'association en profite pour faire un rapide état des lieux depuis le lancement de sa machine à voyager dans le temps qui remonte à 2001, tandis que le site Archive.org n'était mis en place qu'en 2006. En 2009, les données occupaient pas moins de 3 Po de stockage, avant de dépasser les 5 Po au début de l'année dernière, soit pas moins de 5 000 To ou encore 5 000 000 Go. Notez que la dernière campagne de financement leur a permis d'assurer une capacité de stockage de 10 Po, mais nul doute qu'il faudra bientôt l'augmenter.

Pour accéder à cette machine à voyager dans le temps virtuelle, c'est par ici. Pour rappel, vous pouvez également soumettre une URL de votre choix afin de la sauvegarder dans la base de données d'Archive.org. Voici un exemple avec Les offres internet.fr :

Commentaires (29)

Inny Abonné

Le 13/05/2014 à 13h 36

Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.

tAran

Le 13/05/2014 à 13h 37

Actualités INpact Virtuel

Les sorties Wii du printemps

" />

Weig

Le 13/05/2014 à 13h 38

Notez que la dernière campagne de financement leur a permis d’assurer une capacité de stockage de 10 To, mais nul doute qu’il faudra bientôt l’augmenter.

Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)

10 Po donc je suppose ?

trash54

Le 13/05/2014 à 13h 39

Weig a écrit :

Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)

10 Po donc je suppose ?

clic bouton magique " />" />" />

Zyami Abonné

Le 13/05/2014 à 13h 50

C’est les moteurs de recherches qui pourraient être content avec cela, en tout cas, c’est impressionnant, chapeau bas messieurs/dames " />

WereWindle

Le 13/05/2014 à 13h 52

Les premières datent de 1996

mes premiers pas sur le Net, avec AOL à l’époque :madeleine:

anonyme_65213238ade2d6bae43f37da8a4a2a8f

Le 13/05/2014 à 13h 54

Le premier snapshot de pcinpact, datant du 6 Mai 2003…

http://web.archive.org/web/20030506002249/http://www.pcinpact.com/

" />

Arcy Abonné

Le 13/05/2014 à 13h 59

C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé …

" />

zefling Abonné

Le 13/05/2014 à 14h 00

Inny a écrit :

Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.

C’est à dire ?

Reznor26

Le 13/05/2014 à 14h 02

#10

Et c’est encore en Californie…

En fait on se demande bien ce qui n’a pas un lien avec la Californie sur le net.

Le 13/05/2014 à 14h 06

#11

Arcy a écrit :

C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé …

" />

Das war ein Befehl ! " />

edit : oops

Jyl2

#12

ils ne remontent pas bien loin : je ne trouve rien pour l’année de ma naissance (1976) " />

=> suis loin " />

myahoo

Le 13/05/2014 à 14h 07

#13

Allez courage, encore quelques années et le prix du SSD sera tellement bas qu’on comptera en Eo, Zo, voire Yo " />

Le 13/05/2014 à 14h 10

#14

zefling a écrit :

C’est à dire ?

Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.

#15

Wha, j’avais pas vu qu’il y a une version de 2004 de mon site… qui a fêté ses 10 ans le mois dernier. " />" />

Inny a écrit :

Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.

Sur mon site, depuis que j’ai changé pour une domaine perso, les archivages vachement moins fréquents.

J’avais un site en Flash, et devine quoi. (plein de pages vides) " />

le podoclaste

Le 13/05/2014 à 14h 17

#16

L’astuce pour s’occuper au boulot : si vous avez 12 ou 13 000 ans devant vous, vous pouvez vous occuper en passant une seconde sur chaque page " />

FunnyD

Le 13/05/2014 à 14h 27

#17

Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

https://web.archive.org/web/20010223210657/http://www.inpact-hardware.com/

PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” " />

Le 13/05/2014 à 14h 35

#18

trash54 a écrit :

clic bouton magique " />" />" />

Je l’utilise quand je suis sûr (par exemple les fautes d’orthographe)

Ici je m’interrogeais car je trouvais ça bien étrange…

Jarodd Abonné

#19

zefling a écrit :

C’est à dire ?

Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.

matroska

Le 13/05/2014 à 14h 50

#20

Jarodd a écrit :

Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.

Eux peut-être ne le font pas, mais les archives sont redondées en temps réel sur le serveurs de la NSA…

" />

" />

Le 13/05/2014 à 14h 51

#21

Jarodd a écrit :

Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.

En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.

Khalev

Le 13/05/2014 à 15h 13

#22

zefling a écrit :

En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.

Syntax error… cannot compile

diseqc

Le 13/05/2014 à 15h 24

#23

C’est pas avec archive.org qu’on aura le droit à l’oubli…

Le 13/05/2014 à 16h 56

#24

FunnyD a écrit :

Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

https://web.archive.org/web/20010223210657/http://www.inpact-hardware.com/

PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” " />

Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » " />

Le 13/05/2014 à 17h 33

#25

Reznor26 a écrit :

Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » " />

J’ai pas voulu remuer la hallebarde dans la plaie " />

Le 13/05/2014 à 17h 56

#26

zefling a écrit :

En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.

En quoi c’est inquiétant ? A partir du moment où une info a été publiée sur un site, pourquoi ne pourrait-on pas la retrouver ? Le cache de Google fait ça, personne ne s’en émeut. Et si l’info n’a pas à être publique, soit on ne la publie pas, soit on la publie avec des restrictions. Pour les problèmes juridiques, voir l’actu sur le droit à l’effacement, qui ne concerne qu’un très infime partie des requêtes.

D’ailleurs pas mal de sites le font d’eux mêmes, soit avec une recherche, soit des catégories par dates (les blogs notamment), ou une section “archives”.

John Shaft Abonné

Le 13/05/2014 à 20h 19

#27

Inny a écrit :

Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.

En général, on ne pense pas à Heritrix (leur crawler, que j’aimerai bien tester au boulot soit dit en passant) quand on fait un robots.txt (à moins de foutre un disallow *)

sitesref Abonné

Le 13/05/2014 à 20h 50

#28

Linderbergh traverse l’Atlantique

" />

Lasic

Le 13/05/2014 à 21h 04

#29

J’y ai encore été aujourd’hui.

Mais ce qui manque à la Wayback Machine, c’est un vrai moteur de recherche interne. Si on cherche un site disparu mais qu’on a oublié l’url… chaud pour le retrouver " />

Catégories

Nous suivre

À propos

Archive.org dépasse les 400 milliards de pages sauvegardées

Marty et Doc peuvent se rhabiller

Tiens, en parlant de ça :

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

C'est la fête du slip ! (© Fred42)

Après l’affaire XZ Utils, la sécurité des projets open source en question

Nudes in bio

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

SK hynix va-t-il tenter la LPDDR5MT (Mega Turbo) ?

Sommaire de l'article

Introduction

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

#Flock : de Game of Shithrones au jeu des sept différences

[Édito] Respectez les sciences, bordel !

Une faille critique dans le langage Rust, Windows trinque

La CADA considère que le code source et les algorithmes de MIA devraient être rendus publics

Ubuntu 24.04 LTS se profile comme une version majeure, le tour des nouveautés

Loi SREN adoptée : comment la France va sécuriser et réguler l’espace numérique

« La vidéoprotection augmentée ne sera pas optimum au moment des JO »

#LeBrief : floutage DM Instagram, Apple vs espionnage, musique par IA avec Udio, Joe Biden vs Julian Assange

Commentaires (29)