Archive.org dépasse les 400 milliards de pages sauvegardées

Archive.org dépasse les 400 milliards de pages sauvegardées

Marty et Doc peuvent se rhabiller

Avatar de l'auteur
Sébastien Gavois

Publié dans

Internet

13/05/2014 2 minutes
29

Archive.org dépasse les 400 milliards de pages sauvegardées

C'est un nouveau cap que viennent de dépasser le site Archive.org et sa machine à voyager dans le temps : 400 milliards de pages sont sauvegardées. Le site en profite pour établir une petite rétrospective depuis son lancement.

pcinpact.com archive.org pcinpact.com archive.org

Voyageons dans le temps avec feu PC INpact

 

Archive.org est bien connu des nostalgiques du web et de ceux qui cherchent à connaître les différentes évolutions d'un site internet. En effet, via sa « Way Back Machine », ou machine à remonter le temps, il propose des captures d'une multitude de sites à différentes périodes. Les premières datent de 1996, tandis que les plus récentes n'ont que quelques heures.

 

L'année dernière, Archive.org annonçait les 240 milliards de pages web indexées, un chiffre qui a fait un bond en l'espace de 16 mois puisque la barre des 400 milliards vient d'être dépassée, 411 milliards exactement à l'heure où nous écrivons ces lignes), soit une moyenne de 10 milliards de plus par mois. À ce rythme-là, le demi-billion devrait arriver d'ici l'année prochaine.

 

L'association en profite pour faire un rapide état des lieux depuis le lancement de sa machine à voyager dans le temps qui remonte à 2001, tandis que le site Archive.org n'était mis en place qu'en 2006. En 2009, les données occupaient pas moins de 3 Po de stockage, avant de dépasser les 5 Po au début de l'année dernière, soit pas moins de 5 000 To ou encore 5 000 000 Go. Notez que la dernière campagne de financement leur a permis d'assurer une capacité de stockage de 10 Po, mais nul doute qu'il faudra bientôt l'augmenter.

 

Pour accéder à cette machine à voyager dans le temps virtuelle, c'est par ici. Pour rappel, vous pouvez également soumettre une URL de votre choix afin de la sauvegarder dans la base de données d'Archive.org. Voici un exemple avec Les offres internet.fr :

 

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Fermer

Commentaires (29)


Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.




Actualités INpact Virtuel

Les sorties Wii du printemps



<img data-src=" />




Notez que la dernière campagne de financement leur a permis d’assurer une capacité de stockage de 10 To, mais nul doute qu’il faudra bientôt l’augmenter.





Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)



10 Po donc je suppose ?








Weig a écrit :



Y’a un problème non ? Parce que si c’est 10 To c’est 0.2% de ce qu’ils avaient besoin en début d’année dernière. C’est pas énorme pour une campagne de financement ;)



10 Po donc je suppose ?







clic bouton magique <img data-src=" /><img data-src=" /><img data-src=" />



C’est les moteurs de recherches qui pourraient être content avec cela, en tout cas, c’est impressionnant, chapeau bas messieurs/dames <img data-src=" />




Les premières datent de 1996



mes premiers pas sur le Net, avec AOL à l’époque :madeleine:


Le premier snapshot de pcinpact, datant du 6 Mai 2003…

http://web.archive.org/web/20030506002249/http://www.pcinpact.com/



<img data-src=" />


C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé



<img data-src=" />








Inny a écrit :



Impressionnant. Et encore, ils ont perdu bien plus que tout ce qu’ils ont enregistré. Hélas.







C’est à dire ?



Et c’est encore en Californie…

En fait on se demande bien ce qui n’a pas un lien avec la Californie sur le net.








Arcy a écrit :



C’est surtout un moyen pour que la nouvelle génération apprenne des erreurs du passé



<img data-src=" />





Das war ein Befehl ! <img data-src=" />



edit : oops



ils ne remontent pas bien loin : je ne trouve rien pour l’année de ma naissance (1976) <img data-src=" />



=&gt; suis loin <img data-src=" />


Allez courage, encore quelques années et le prix du SSD sera tellement bas qu’on comptera en Eo, Zo, voire Yo <img data-src=" />








zefling a écrit :



C’est à dire ?





Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.



Wha, j’avais pas vu qu’il y a une version de 2004 de mon site… qui a fêté ses 10 ans le mois dernier. <img data-src=" /><img data-src=" />









Inny a écrit :



Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.







Sur mon site, depuis que j’ai changé pour une domaine perso, les archivages vachement moins fréquents.



J’avais un site en Flash, et devine quoi. (plein de pages vides) <img data-src=" />



L’astuce pour s’occuper au boulot : si vous avez 12 ou 13 000 ans devant vous, vous pouvez vous occuper en passant une seconde sur chaque page <img data-src=" />


Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

https://web.archive.org/web/20010223210657/http://www.inpact-hardware.com/





PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” <img data-src=" />








trash54 a écrit :



clic bouton magique <img data-src=" /><img data-src=" /><img data-src=" />







Je l’utilise quand je suis sûr (par exemple les fautes d’orthographe)

Ici je m’interrogeais car je trouvais ça bien étrange…









zefling a écrit :



C’est à dire ?







Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.









Jarodd a écrit :



Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.







Eux peut-être ne le font pas, mais les archives sont redondées en temps réel sur le serveurs de la NSA…



<img data-src=" />



<img data-src=" />









Jarodd a écrit :



Archive ne fait pas de screenshot de tous les sites tous les jours, donc certaines versions sont tombées dans l’oubli.







En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.









zefling a écrit :



En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.





Syntax error… cannot compile



C’est pas avec archive.org qu’on aura le droit à l’oubli…








FunnyD a écrit :



Non, mais Teuf, c’est un gars sérieux, il fait pas dans le sondage graveleux

https://web.archive.org/web/20010223210657/http://www.inpact-hardware.com/



PS : j’aime beaucoup la pub “Offrez-vous la maj Windows Me pour

399,00 FRF TTC ” <img data-src=" />





Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » <img data-src=" />









Reznor26 a écrit :



Tu as oublié aussi ce qu’il y a écrit dans le bas de page : « Internet Explorer requis » <img data-src=" />





J’ai pas voulu remuer la hallebarde dans la plaie <img data-src=" />









zefling a écrit :



En même temps s’ils ont la capacité de faire ça, ça deviendrait inquiétant. Et puis ça toujours était comme ça, un fait qui n’a jamais était reporté ne s’est jamais produit, vu qu’il y en a aucune trace. Là, on en est à : ce jour là ça ressemblait à ça, pas le site entier était comme ça, et je pense qu’il y a peut de chance que ça aille plus loin, sinon c’est des Zetta-octets d’espace disque qu’il faudrait.







En quoi c’est inquiétant ? A partir du moment où une info a été publiée sur un site, pourquoi ne pourrait-on pas la retrouver ? Le cache de Google fait ça, personne ne s’en émeut. Et si l’info n’a pas à être publique, soit on ne la publie pas, soit on la publie avec des restrictions. Pour les problèmes juridiques, voir l’actu sur le droit à l’effacement, qui ne concerne qu’un très infime partie des requêtes.



D’ailleurs pas mal de sites le font d’eux mêmes, soit avec une recherche, soit des catégories par dates (les blogs notamment), ou une section “archives”.









Inny a écrit :



Beaucoup de sites n’ont pu être archivés avant leur disparition, ou alors partiellement. De plus, un robot.txt suffit à interdire l’archivage.







En général, on ne pense pas à Heritrix (leur crawler, que j’aimerai bien tester au boulot soit dit en passant) quand on fait un robots.txt (à moins de foutre un disallow *)





Linderbergh traverse l’Atlantique





<img data-src=" />


J’y ai encore été aujourd’hui.

Mais ce qui manque à la Wayback Machine, c’est un vrai moteur de recherche interne. Si on cherche un site disparu mais qu’on a oublié l’url… chaud pour le retrouver <img data-src=" />