Amazon S3 : c’est une erreur humaine qui a provoqué la panne de plusieurs heures

Et un léger manque de calibration

Amazon est revenu aujourd’hui sur l’incident qui a touché ses Web Services dans la nuit de mardi à mercredi. Il s’agissait bien d’une erreur humaine : une instruction malencontreuse a été envoyée pendant qu’une équipe cherchait à éliminer un autre problème.

Quelques serveurs vous manquent et tout est dépeuplé. C’est la mésaventure d’Amazon et de nombreux utilisateurs de ses services, plusieurs heures durant en début de nuit mardi. Un centre de données en Virginie a provoqué une réaction en chaine, privant de connexion des sites, applications, services et nombreux objets connectés qui nécessitaient un accès à AWS.

Deux sous-systèmes arrêtés, plus d'Amazon S3

Dans un billet technique publié aujourd’hui, la firme revient sur cet incident. Elle explique que l’équipe S3 (Simple Storage Service) travaillait à la résolution d’un problème qui touchait le système de facturation mardi après-midi. Normalement, elle devait lancer une commande qui aurait dû retirer quelques serveurs « dans l’un des sous-systèmes S3 utilisés pour le processus de facturation ». C’est évidemment là que les choses ont dérapé, une erreur dans la commande modifiant le périmètre de son exécution.

Dans la foulée malheureusement, deux autres sous-systèmes ont été touchés, dont un d’indexation qui s’occupait des métadonnées et des informations de géolocalisation de tous les objets S3 dans la région de Virginie. Plus précisément, il s’occupe de l’ensemble des requêtes GET, LIST, PUT et DELETE pour ces objets, empêchant de nombreuses opérations d’être réalisées.

L’autre sous-système est celui qui aura donné le plus de fil à retordre aux équipes techniques. Il était en charge de toutes les allocations pour les nouveaux objets. Il est notamment utilisé pour allouer du stockage lors des requêtes PUT. Or, sans le sous-système d’indexation, il ne peut pas fonctionner.

À ce stade, la seule solution était de lancer un redémarrage complet des sous-systèmes concernés. Évidemment, durant cette opération, Amazon S3 était incapable de s’occuper des requêtes générées par l’ensemble des clients. Toutes les API S3 étaient inaccessibles, provoquant dans la région US-EAST-1 des blocages pour la console S3, des nouvelles instances Elastic Compute Cloud (EC2), les volumes Elastic Block Store (EBS) et AWS Lambda.

Amazon n'a pas pris en compte la masse croissantes des données

Pourtant, ce type d’infrastructure de cloud est pensé pour un uptime de 99,99 %. Que s’est-il passé pour que les opérations créent une telle coupure de plusieurs heures ? Le redémarrage aurait en fait dû prendre bien moins longtemps. Mais comme l’avoue Amazon, cette opération pour une région entière n’avait pas été refaite « depuis bien des années ».

C’est ce laps de temps qui a provoqué la pagaille. La firme explique : « S3 a bénéficié d’une large croissance pendant les dernières années et le processus redémarrant ces services et exécutant les tests nécessaires de sécurité pour valider l’intégrité des métadonnées a pris plus longtemps que prévu ». En clair, le temps prévu ne tenait pas compte de la masse imposante de données accumulées en quelques années.

En temps normal, le redémarrage n’aurait dû être que partiel, l’outil utilisé ne retirant que les parties nécessaires. Il s’est cependant montré trop zélé. Amazon indique que ce problème ne devrait plus se représenter : « Nous avons modifié cet outil pour retirer la capacité de stockage plus lentement et avons ajouté des mesures de sauvegarde pour empêcher la capacité d’être supprimée si cela devait entrainer un sous-système en-dessous du seuil de stockage requis ».

Rappel brutal qu'un objet connecté est... connecté

Il est clair que l’entreprise a appris de sa bourde, puisque l’incident a mis en lumière les faiblesses lors du processus de restauration. Durant les premières heures, elle n’était même pas capable de communiquer sur le statut de ses services, la page consacrée s’appuyant sur… Amazon S3. Le problème aura en tout eu le mérite de faire office de piqure de rappel, et pas seulement pour les équipes techniques de l’entreprise.

De très nombreux services ont besoin d’Amazon en effet, actuellement leader dans l’hébergement de type cloud, même si Microsoft comble rapidement l’écart avec Azure. Slack, Trello, Quora, Business Insider, Coursera, Time Inc, Giphy, Instagram, IMDb, American Airlines, Imgur et tous les sites créés avec la plateforme Wix étaient ainsi inaccessibles, pour ne citer qu’eux.

Parallèlement, de nombreux utilisateurs d’objets connectés ont été dans l’impossibilité d’utiliser certaines fonctions. Ce n’est peut-être pas grand-chose quand on parle d’un téléviseur, mais un four qui ne s’arrête plus, des lumières qui ne veulent pas s’allumer ou une porte d’entrée qui ne remplit pas son rôle sont des soucis autrement plus sérieux. Là encore, les utilisateurs se sont vu rappeler que ces appareils, aussi pratiques soient-ils, sont dépendants de serveurs distants, et qui peuvent donc être inaccessibles eux aussi.

Commentaires (41)

Ricard

Le 03/03/2017 à 16h 02

root@AWS~# rm -rf /

Hé merde…..

CryoGen

Le 03/03/2017 à 16h 03

Ah le cloud, trop bien…

picatrix

putain de stagiaires !

Haken Trigger

Le 03/03/2017 à 16h 07

Ces 3 premiers commentaires…Changez pas la commu NXi, c’est pour ça que je vous adore " />

C’est une des raisons faisant que j’apprécie pas les objets connectés : j’ai l’air d’un arriéré pour certains jeunes ne mangeant que de l’appareil connecté, mais au moins sans Internet ça marche !

anonyme_6d3c8325027b08b8beb8eb7f143f3660

Le 03/03/2017 à 16h 08

picatrix a écrit :

putain de stagiaires !

putain d’humains

Le 03/03/2017 à 16h 09

Haken Trigger a écrit :

Ces 3 premiers commentaires…Changez pas la commu NXi, c’est pour ça que je vous adore " />

C’est une des raisons faisant que j’apprécie pas les objets connectés : j’ai l’air d’un arriéré pour certains jeunes ne mangeant que de l’appareil connecté, mais au moins sans Internet ça marche !

Je pense que toutes les personnes qui s’y connaissent un minimum se méfie des objets connectés qui ne sont pas des produits de geeks comme les pubs aiment le faire croire mais des produits pour noobs.

Obidoub

Et un léger manque de calibration

Faut appeller Garrus " />

Krogoth

Le 03/03/2017 à 16h 10

99.99% d’uptime ce qui donne:

Pour une heure de panne il doit y avoir 416 jours d’uptime… On devrait donc être tranquille pour quelques années…ou pas.

laurader

Le 03/03/2017 à 16h 20

Ben là il y eut plusieurs heures !

TaigaIV

Le 03/03/2017 à 16h 22

#10

Voyons le côté positif, au moins les factures pourront être envoyées.

Tarjan

Le 03/03/2017 à 16h 27

#11

darkbeast a écrit :

putain d’humains

Plus pour longtemps…

http://dilbert.com/strip/2011-07-24

 

Clemzo

#12

La panne accidentelle,n’est qu’une petite partie de l’iceberg.

 En règle générale ce type de produit dépendant d’un serveur est un véritable risque sur la pérennité du produit dont on est pas vraiment propriétaire.

En plus de la panne, on peut citer le piratage du serveur (çà arrive…), la disparition du fournisseur (serveur), le changement de protocole d’accès, les modifications financières de l’accès, la revente d’informations personnelles, etc…

Mimoza Abonné

Le 03/03/2017 à 16h 44

#13

99,99% => Seulement !!!

Je pensais sincèrement qu’ils visaient plus haut pour ce genre de service …

Jarodd Abonné

Le 03/03/2017 à 16h 45

#14

Là encore, les utilisateurs se sont vu rappeler que ces appareils, aussi

pratiques soient-ils, sont dépendants de serveurs distants, et qui

peuvent donc être inaccessibles eux aussi.

Et donc qu’il est aussi possible de développer des modes dégradés permettant d’utiliser au minimum l’objet sans connexion, en attendant le retour du service…

linkin623 Abonné

Le 03/03/2017 à 17h 05

#15

darkbeast a écrit :

Je pense que toutes les personnes qui s’y connaissent un minimum se méfie des objets connectés qui ne sont pas des produits de geeks comme les pubs aiment le faire croire mais des produits pour noobs.

+1 !

Un four connecté… J’y crois vraiment pas.

Aegis1383

Le 03/03/2017 à 17h 06

#16

Non mais c’est bien, je vois que je ne suis pas le seul a avoir été traumatisé…. " />

nikon56

Le 03/03/2017 à 18h 16

#17

Clemzo a écrit :

La panne accidentelle,n’est qu’une petite partie de l’iceberg.

En règle générale ce type de produit dépendant d’un serveur est un véritable risque sur la pérennité du produit dont on est pas vraiment propriétaire.

En plus de la panne, on peut citer le piratage du serveur (çà arrive…), la disparition du fournisseur (serveur), le changement de protocole d’accès, les modifications financières de l’accès, la revente d’informations personnelles, etc…

ou tout simplement la perte de l’accès local! (coupure de ligne suite a travaux / intempéries etc….)

levhieu

Le 03/03/2017 à 18h 43

#18

Et pourtant il y a eu un tweet de quelqu’un se plaignant de ne plus pouvoir éteindre son four

swiper Abonné

Le 03/03/2017 à 18h 47

#19

Étonnant qu’on puisse via une simple commande péter tout ça. Que font les ingénieurs de là-bas ? Ils devraient avoir anticipé ce genre de problème quand même !

Surtout que les dépendances devaient être connus. Maintenant, moi qui me demandais tout le temps à quoi servaient les tests de reboot annuels de services, je comprends mieux. Ils auraient pu éviter que ça prenne autant de temps et l’auraient fait dans un environnement contrôlé xD

Le 03/03/2017 à 19h 05

#20

levhieu a écrit :

Et pourtant il y a eu un tweet de quelqu’un se plaignant de ne plus pouvoir éteindre son four

Dans le coffret éléctrique, il doit y avoir un disjoncteur 32A. Faut le mettre sur off. " />

ArnoH

Le 03/03/2017 à 19h 29

#21

Ricard a écrit :

Dans le coffret éléctrique, il doit y avoir un disjoncteur 3216A. Faut le mettre sur off. " />

Tu as des fours de fou toi " />

Akira78 Abonné

Le 03/03/2017 à 19h 41

#22

La page de Wiki qui explique ça était sur S3 !

jimibio

Le 03/03/2017 à 19h 43

#23

neobug

Le 03/03/2017 à 19h 52

#24

C’est pensé pour un uptime de 99.99% mais Amazon n’en garanti aucun. Ce qui est marrant après ce sont les infogérants qui eux garantissent un uptime sur AWS. Certains doivent s’en mordre les doigts actuellement.

Le 03/03/2017 à 20h 17

#25

ArnoH a écrit :

Tu as des fours de fou toi " />

Ben non. Un four c’est 32 A. " />

16A c’est pour une prise de courant normale." />

Maxhysteria

Le 03/03/2017 à 20h 24

#26

Aux US t’as du 110V, le 16A c’est pour le grille pain 😁

Cisco7 Abonné

Le 03/03/2017 à 20h 47

#27

Incroyable malgré tout qu’il n’y ait pas une redondance qui permette justement d’éviter ce genre de désagréments, ça fait peur quand même de la part d’un des leaders de services de cloud computing…

Le 03/03/2017 à 21h 09

#28

linkin623 a écrit :

Un four connecté… J’y crois vraiment pas.

il n’y a pas que les fours qui peuvent être connectés.

C’est clair qu’en cas (ou pas) de plantage du cloud certains vont l’avoir dans le cul  …

Kerwan Abonné

Le 03/03/2017 à 21h 17

#29

Parce qu’il y’a des objets connectés qui ne fonctionne plus s’ils ne sont pas connecté au net ?

Je veux dire un four qui ne peut plus se mettre à l’heure ou récupérer ta liste de courses, on s’en fiche mais qui ne veut même pas démarrer car il n’a plus accès au serveur…

Et c’est 100x pire pour la porte d’entrée mais qui connecte l’ouverture de sa porte à internet ? 

qmarlats

Le 03/03/2017 à 22h 49

#30

Après la suppression de la base de données chez GitLab, la fuite de données chez Cloudflare et la panne chez AWS, à qui le tour ? " />

sat57

Le 04/03/2017 à 04h 54

#31

Après la mis en examen de Fillon,la probable mis en examen de Le Pen. À qui le tour?

On vit une sacrée époque,quel est l’intérêt d’avoir un four connecté ?

Birto

Le 04/03/2017 à 05h 46

#32

Ricard a écrit :

Ben non. Un four c’est 32 A. " />

16A c’est pour une prise de courant normale." />

Dans la NFC15-100:

32A sur diff A => plaque de cuisson

20A sur diff AC => four

http://docdif.fr.grpleg.com/general/ouidoo/pdf/MM216017_Guide_norme_NFC-15100_Fe…

skan

Le 04/03/2017 à 07h 43

#33

Faut pas déconner quand même ;)

jackjack2

Le 04/03/2017 à 07h 55

#34

qmarlats a écrit :

Après la suppression de la base de données chez GitLab, la fuite de données chez Cloudflare et la panne chez AWS, à qui le tour ? " />

GitLab.com

" />

Huron

Le 04/03/2017 à 08h 24

#35

Comme disait la grand mère de Scotty: “Plus on complique une tuyauterie plus elle se bouche facilement”.

zongap

Le 04/03/2017 à 11h 28

#36

Cisco7 a écrit :

Incroyable malgré tout qu’il n’y ait pas une redondance qui permette justement d’éviter ce genre de désagréments, ça fait peur quand même de la part d’un des leaders de services de cloud computing…

Ben ce qui est fou surtout, c’est de se dire que tant de clients d’AWS n’aient pas lu la doc (ou ont préféré jouer la carte de l’économie), car il n’est absolument pas recommandé de mettre tout ses oeufs sur la même “région” de datacenter.

Plus d’infos sur les infras recommandées par AWS ici (et c’est même en francais…) :

http://docs.aws.amazon.com/fr_fr/AWSEC2/latest/UserGuide/using-regions-availabil…

“Amazon gère des centres de données à la pointe de la technologie et hautement disponibles. Bien qu’elles soient rares, des pannes touchant la disponibilité des instances se trouvant au même emplacement peuvent se produire. Si vous hébergez toutes vos instances dans un seul emplacement touché par une panne de ce type, aucune de vos instances ne sera disponible.”

+ 

https://aws.amazon.com/blogs/aws/latency-based-multi-region-routing-now-availabl… depuis 2012…

SebGF Abonné

Le 04/03/2017 à 16h 58

#37

Autant couper le général => reboot maison.

Le 04/03/2017 à 18h 04

#38

SebGF a écrit :

Autant couper le général => reboot maison.

Et couper le routeur ? " />

Le 04/03/2017 à 18h 48

#39

Tu l’as pas mis sur onduleur ? " />

512k

Le 04/03/2017 à 23h 40

#40

Si tu savais…

J’en ai mal au visage à force de me facepalm avec tout ce que je vois au taff.

boogieplayer

Le 05/03/2017 à 22h 20

#41

Huron a écrit :

Comme disait la grand mère de Scotty: “Plus on complique une tuyauterie plus elle se bouche facilement”.

Enorme " />" />

Amazon S3 : c’est une erreur humaine qui a provoqué la panne de plusieurs heures

Et un léger manque de calibration

Deux sous-systèmes arrêtés, plus d'Amazon S3

Amazon n'a pas pris en compte la masse croissantes des données

Rappel brutal qu'un objet connecté est... connecté

Tiens, en parlant de ça :

EUCS : la certification cloud européenne sous le feu des critiques en France

Chiens de faïence

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Irréductible gaulois, #oupas

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Schrems vs Meta, une histoire sans fin

Sommaire de l'article

Introduction

Deux sous-systèmes arrêtés, plus d'Amazon S3

Amazon n'a pas pris en compte la masse croissantes des données

Rappel brutal qu'un objet connecté est... connecté

EUCS : la certification cloud européenne sous le feu des critiques en France

L’Institut des normes de télécommunication de l’UE (ETSI) défie la Commission européenne

Le « payer ou accepter » de Meta incompatible avec le RGPD pour le CEPD

Le CERN libère les données de la découverte du boson de Higgs

Le ministère de l’Intérieur mise sur l’américain TRM Labs pour traquer les flux illégaux de cryptos

#LeBrief : spectre du gamergate, TikTok Lite sous pression, Freebox Ultra vs Deus Ex Silicium, Pegasus en Pologne

Le Slip français se fait trouer : 1,5 million d’emails et des données de 696 144 clients dérobés ?

Après l’affaire XZ Utils, la sécurité des projets open source en question

Samsung dépasse les 10 Gb/s avec sa mémoire LPDDR5X

Élections européennes : Meta échoue à modérer des publicités de propagande pro-russe

#LeBrief : fuite chez le Slip Français, YouTube et les antipubs, Firefox 125, délit pour les deepfakes, trou noir « dormant »

VMware by Broadcom : une situation tendue, l’Europe s’en mêle

Comment la désinformation d’extrême-droite sert les intérêts russes en France

Mars Sample : retour pas si sûr…

#LeBrief : « traumatisme » du deepfake pornographique, Tesla licencie, Samsung repasse devant Apple, Musk vs finances X

Aux USA, la surveillance des communications d’étrangers sans mandat (FISA) fait débat

Apple autorise puis supprime un émulateur Game Boy sur iOS

Android 15 bêta : Wallet par défaut, sécurité des réseaux mobiles et Wi-Fi, bugs sur le NFC

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

#LeBrief : Beeper rachetée, Cyber Command USA, incident technique BFMTV, « destin énergétique » de l’Europe

#Flock : de Game of Shithrones au jeu des sept différences

Commentaires (41)