Amazon S3 : des sites et objets connectés inaccessibles cette nuit à cause d'une panne

Amazon S3 : des sites et objets connectés inaccessibles cette nuit à cause d’une panne

Un seul datacenter vous manque...

Avatar de l'auteur
Vincent Hermann

Publié dans

Internet

01/03/2017 4 minutes
40

Amazon S3 : des sites et objets connectés inaccessibles cette nuit à cause d'une panne

Pendant plusieurs heures hier soir, une panne dans Amazon S3 a provoqué l’inaccessibilité de bon nombre de sites. Un incident rare, mais qui rappelle que la concentration, malgré ses avantages, comporte son lot de dangers.

Si beaucoup connaissent Amazon comme une gigantesque plateforme de commerce en ligne, il ne faudrait pas oublier que l’entreprise est également leader dans un autre domaine : l’hébergement web. Via son Simple Storage Service (ou S3), Amazon Web Services est premier dans ce secteur, même si Microsoft voit sa part continuellement augmenter avec sa gamme Azure.

Les premiers problèmes hier soir vers 20h30

Ce type de solution offre des avantages indéniables, notamment en termes d’intégration et de facilité de déploiement, sans parler de la distribution des ressources à la demande. Aussi, de très nombreuses entreprises font appel à Amazon S3 (environ 120 000 domaines uniques) pour l’hébergement de leurs sites ou au moins d’une partie de leurs données. Et si une telle structure tombe en panne, c’est toute une partie du web qui devient inaccessible.

C’est précisément ce qui s’est passé pendant plusieurs heures hier soir. Les premiers incidents ont été rapportés vers 20h30, la page de statut d’IFTTT (qui utilise AWS) commençant à remonter des problèmes dans la foulée. Rapidement, des témoignages sont apparus sur des soucis liés aux fonctions d’objets connectés, comme des fours, des contrôleurs de lumière et même des portes d’entrée.

Nombreux sites et objets connectés touchés

La page de statut d’AWS permet de mieux se rendre compte de la chronologie. L’entreprise reconnait pour la première fois à 20h35 qu’il existe un problème, mais que la page a justement été réparée pour pouvoir transmettre des informations. Dans ce premier message, Amazon précise que le taux d’erreur est très important dans S3, mais que la cause de la panne a probablement été identifiée.

Environ deux heures plus tard, les opérations de récupération, listing et suppression des objets S3 sont de retour, mais les ajouts continuent de générer de nombreuses erreurs. Il faut encore attendre une heure de plus pour que la totalité des opérations soit de nouveau accessibles et que le service S3 soit considéré comme de retour à la normale. On ne sait pas exactement ce qui s’est passé, mais le problème émanait d’un centre de données situé en Virginie.

amazon aws

Durant ces heures de panne, de très nombreux sites ont également été affectés, notamment ceux de Slack, Trello, Quora, Business Insider, Coursera, Time Inc, Giphy, Instagram, IMDb, American Airlines, Imgur ainsi que tous les sites créés avec la plateforme Wix. Notez que les symptômes n’étaient pas toujours les mêmes, certains ne fonctionnant plus du tout, d’autres partiellement. Ironie du sort, le site « Is It Down Right Now » était lui aussi inaccessible. Même une partie des services d'Apple ont été touchés.

Notez cependant qu'il semble qu'une bonne partie des problèmes aient été concentrés sur le marché américain, et pas de manière systématique. Netflix s'appuie par exemple lourdement sur Amazon et n'a par exemple rencontré aucune difficulté.

Dure piqûre de rappel

En tout, les services d’Amazon ont été coupés pendant environ trois heures. Une période très longue pour de nombreux objets connectés qui se sont mis à ne plus répondre aux ordres. Changement de sensibilité d’une souris, four qui ne veut plus s’éteindre, lumières qui ne peuvent plus s’allumer et ainsi de suite ont été notés, notamment par le compte Twitter « Internet of Shit », qui a retweeté ce genre de mésaventure.

De quoi rappeler qu’une telle structure centralisée peut avoir un impact très conséquent sur la vie personnelle et professionnelle si elle s’éternise, tout en faisant une piqûre de rappel sur les objets connectés. Si ces derniers peuvent en effet rendre bien des services, ils sont par nature dépendants de serveurs distants. La moindre interruption de connexion désactive des fonctionnalités, voire peut les rendre totalement inopérants, avec les soucis que l’on imagine.

40

Écrit par Vincent Hermann

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Les premiers problèmes hier soir vers 20h30

Nombreux sites et objets connectés touchés

Dure piqûre de rappel

Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Commentaires (40)


Bienvenue dans le monde du tout connecté c’est bien vous verrez ……



Pour le four qui ne veut plus s’éteindre c’est pas cool, si ça arrive que t’es en vacances et que le four ne se coupe pas après retour du cloud, tu reviens soit avec une facture edf à faire pâlir la tour Eiffel, soit ta maison est remplacée par un tas de cendres.


Je confirme impossible de faire notre partie de jdr hier soir


J’ai du mal à comprendre comment on peut déporter sa gestion de l’éclairage (ou tout ce qui touche à chez soi) sur des serveurs/service-tiers. Autant en connexion distante via son smartphone je peux comprendre, mais la c’est dangereux de ne pas avoir d’alternative. 








Guimareshh a écrit :



J’ai du mal à comprendre comment on peut déporter sa gestion de l’éclairage (ou tout ce qui touche à chez soi) sur des serveurs/service-tiers. Autant en connexion distante via son smartphone je peux comprendre, mais la c’est dangereux de ne pas avoir d’alternative. 





Tellement +1

Ça me dépasse

Surtout les portes d’entrée!



L’API de Thingspeak était morte aussi



La plupart du temps les gens ne savent même pas que leurs  IoTs sont connectés à un cloud.


Et encore, là c’était une panne technique de 3h00. Mais avec les consolidations à venir dans le secteur IoT, probable que la moitié des fabricants actuels vont disparaitre.



Et là, une fois l’hébergement cloud qui donnait son intelligence au bidule connecté arrivé à terme… Il n’y aura plus qu’a remplir sa poubelle.



Pourtant, avec un raspberry PI et un Domoticz ou autre Jeedom… voir pour ce dernier des solutions toutes faites… il y a moyen d’éviter ce genre de fâcheuse dépendance.


Eh beh, c’était à cause de quoi ? Une boite noire du sinistère de l’intérieur devenue trop gourmande ?…



Pour répondre @Guimareshh et @jackjack2 : alors, je ne cautionne pas du tout le principe, mais techniquement, il y a des justifications :





  • plus simple pour Mme Michu : c’est déjà assez tordu pour elle de connecter son gadget à son Wi-Fi, si en plus il faut le rendre accessible de l’intérieur et de l’extérieur (port forwarding ?), là, elle est aux fraise, Mme Michu. D’où le serveur externe qui centralise tout. Pas besoin d’une n-ième box non plus

  • mise en relation d’appareil hétérogène (non, ça n’est pas interdit au moins de 18 ans). Si ils respectent des choses du genre IFTTT, ils peuvent interagir







    Bon, après, tout ça pose plus de problèmes que ça n’en solutionne, on est d’accord, hein !


Ah ça explique pourquoi la plupart des images ne se chargeaient pas sur DeviantArt hier soir.


Et au même moment, on nous parle de la voiture connectée <img data-src=" />








Guimareshh a écrit :



J’ai du mal à comprendre comment on peut déporter sa gestion de l’éclairage (ou tout ce qui touche à chez soi) sur des serveurs/service-tiers.&nbsp;





Parce que les fournisseurs d’offre cloud revendiquent 100 fois moins de pannes que ta centrale EDF…

J’ai lu sur twitter qu’il n’y avait pas eu de panne généralisé d’aws depuis 5ans…

C’est pas des hebergement OVH hein… :/



Donc meme si ça reste critiquable (pour la partie vie privée, obsolescence et l’interet du consommateur en géneral), c’est tout de meme cohérent d’attribuer des fonctions domotiques importantes à des serveurs décentralisés…









vloz a écrit :



Parce que les fournisseurs d’offre cloud revendiquent 100 fois moins de pannes que ta centrale EDF…





“Ta centrale EDF” ? Ca doit être en Californie avec le problème de production électrique, mais pas EDF. A Paris et petite couronne, les pannes de courant sont extrêmement rares (quelques minutes tous les 10 ans, chez moi).









vloz a écrit :



Donc meme si ça reste critiquable (pour la partie vie privée, obsolescence et l’interet du consommateur en géneral), c’est tout de meme cohérent d’attribuer des fonctions domotiques importantes à des serveurs décentralisés…





En l’occurrence, il s’agit de serveurs centralisés.

Et non, ça n’est pas cohérent. Ce qui concerne ma maison ne concerne que ma maison et n’a pas besoin d’être hébergé en dehors de chez moi.



Après si les fabricants IoT ne se préoccupe plus de l’infra c’est un problème aussi. Netflix est le cas type ici, ils n’ont rencontré aucun problème car même s’appuyant sur l’infra ils ont mis en place tout une architecture pour pallier à des problèmes d’infra…








vloz a écrit :



Parce que les fournisseurs d’offre cloud revendiquent 100 fois moins de pannes que ta centrale EDF…

J’ai lu sur twitter qu’il n’y avait pas eu de panne généralisé d’aws depuis 5ans…

C’est pas des hebergement OVH hein… :/





Très mauvais exemple, puisque si tu as une panne EDF chez toi … ben ton équipement ne fonctionnera pas non plus, que AWS soit dispo ou pas.



Là on multiplie les dépendances et donc les possibilités de défaillances, avec des risques de panne de:




  • ton objet domotique

  • ta fourniture EDF

  • ta connexion internet à la maison

  • ton provider du service

  • l’hébergeur du service qu’utilise ton provider

  • etc…



    Comme dit plus haut, c’est délirant d’avoir des solutions qui passent par le cloud pour de la domotique, en plus sans fallback pour les commandes locales.



    Perso, tous mes modules domotiques fonctionnent en parfaite autonomie ; même si la box tombe, les boutons classiques continuent de fonctionner et les modules continuent de communiquer entre eux sans passer par la box.

    Le seul cas où ça peut poser un souci, c’est si le module tombe lui-même en panne, et là aussi j’ai cablé de telle façon qu’il me suffira de démonter le module et recabler l’interrupteur comme à l’origine pour récupérer la fonctionnalité.



    Certains utilisateurs d’une box domotique (Zibase) d’une société qui a fait récemment faillite peuvent t’en parler d’ailleurs: plus de société, la box s’est transformée en brique et toute la domotique de la maison est tombée avec. Super.



tout a fait, car même si les serveur cloud ne tombe pas / peut en panne, il n’en est pas de même pour les connexions des particuliers!!!



le plus marrant étant que le dashboard de santé de S3 était hébergé… sur S3.<img data-src=" />

du coup pendant un bout de temps, tous les indicateurs étaient au vert. <img data-src=" />



ah, et le twitter InternetOfShit est à suivre. le meilleur du pire de l’IOT. ^^


Je .



Un four qui refuse de s’éteindre, une porte qui ne s’ouvre plus ou une lumière qui ne s’allume pas suite à une perte de connexion internet avec le service distant ??

&nbsp;


Les aléas du minitel 2.0


Honnêtement, ceux qui se plaignent que leur porte ne s’ouvre plus ou que leur four ne s’arrête pas sont des idiots et meritent seulement qu’on leur jette des cailloux.



Qand on concoit un systeme à commande deportée, la base de la base c’est de faire en sorte que si la commande deportée tombe, alors :




  1. le système tombe en position de repli sécurisée

  2. on sache reprendre la main en local.



    L’imbécile qui a concu son système de manière à ce que le four reste allumé, en plus d’être un imbécile, est un grand dangereux : si ca se passe quand il n’est pas là, il prend le risque de cramer le quartier. Cool.








Natsume a écrit :



Je .



Un four qui refuse de s’éteindre, une porte qui ne s’ouvre plus ou une lumière qui ne s’allume pas suite à une perte de connexion internet avec le service distant ??



A croire que ceux qui conçoivent ces objets connectés n’ont pas réfléchis 5s au conséquence d’une perte de connexion. Moi cela me fatigue un peu, je travail en temps qu’ingénieur logiciel embarqué dans le sécuritaire, et on doit tenir des éventements tellement plus improbable (rayon cosmique…)

Je ne veux même pas savoir comment en faite cela a été développé, cela doit être en plus bourré de faille de sécurité…









Drepanocytose a écrit :



Honnêtement, ceux qui se plaignent que leur porte ne s’ouvre plus ou que leur four ne s’arrête pas sont des idiots et meritent seulement qu’on leur jette des cailloux.



Ce sont les utilisateurs qui se plaignent, ils n’y peuvent rien… Ils sont peut être idiots, mais clairement ils ne peuvent rien y faire et difficile de le savoir.

Si j’avais acheté un tel objet connecté (cela ne risque pas d’arriver de si tôt) je m’attendrais qu’il se mette au minimum en sécurité, et dans le meilleur des cas en mode dégradé en commande manuelle









benjarobin a écrit :



A croire que ceux qui conçoivent ces objets connectés n’ont pas réfléchis 5s au conséquence d’une perte de connexion. Moi cela me fatigue un peu, je travail en temps qu’ingénieur logiciel embarqué dans le sécuritaire, et on doit tenir des éventements tellement plus improbable (rayon cosmique…)

Je ne veux même pas savoir comment en faite cela a été développé, cela doit être en plus bourré de faille de sécurité…





Oui.

Mais Mme Michu, il faut lui proposer des solutions simples, à Mme Michu.



Des solutions à des problèmes qu’elle ne s’est jamais posé avant qu’on vienne lui créer un besoin fictif ; des solutions simples qui evidemment ne sollliciteront pas son intellect, parce que reflechir c’est trop compliqué et c’est so 20eme siecle ; des solutions qu’elle mérite bien, Mme Michu, parce que elle aussi elle a droit a sa part du progrès 2.0 ; des solutions qui font en sorte qu’elle n’ait pas trop d’exercice à faire, parce que c’est fatiguant de mater de séries toute la journée, si en plus il faut bouger son cul pour éteindre la lumière, où va le monde….









benjarobin a écrit :



Ce sont les utilisateurs qui se plaignent, ils n’y peuvent rien… Ils sont peut être idiots, mais clairement ils ne peuvent rien y faire et difficile de le savoir.

Si j’avais acheté un tel objet connecté (cela ne risque pas d’arriver de si tôt) je m’attendrais qu’il se mette au minimum en sécurité, et dans le meilleur des cas en mode dégradé en commande manuelle





NON.

Trop facile, ca. Quand un objet peut faire en sorte de laisser ton four allumé, tu te demandes un minimum ce qu’il se passe quand ca foire….

Le premier acteur de ta sécurité, c’est toi. Trop facile de reporter les soucis sur autrui et de s’en laver les mains sous pretexte qu’on a payé.



Edit : et franchement, faire une petit test de perte de connexion, c’est pas la mer à borie….



Honnetement si j’avais acheté un tel objet connecté, je m’attendrais surtout à ce qu’il fonctionne tout le temps, point.

RAF d’un réseau internet en panne ou d’un cloud qui marche pas parce qu’on a un anticyclone qui repousse tous les nunuages dans le ciel.

J’ai payé, ça doit marcher.



… Mais vu que je bosse aussi dans le domaine, je me demande comment on a pu arriver à une absurdité pareille : un four qui ne s’éteint pas??? Si la barraque crame, on fait comment ? Le fabriquant du four rembourse ?

Clairement le minimum serait de repasser en mode “classique”, celui qu’on a déjà sur tous les fours non connectés : les bons vieux boutons en façade.








Natsume a écrit :



Honnetement si j’avais acheté un tel objet connecté, je m’attendrais surtout à ce qu’il fonctionne tout le temps, point.

.





Rien ne fonctionne tout le temps : il FAUT prévoir les modes de défaillance, c’est la base de la base du métier de concepteur d’équipements, quels qu’ils soient.



Edit : et non, c’est pas parce que t’as payé que ca doit marcher. Encore une fois, les responsabilités en cas de défaillance, ca s’étudie et ca se prévoit. Tu ne peux pas t’affranchir de tout parce que t’as ouvert ton porte monnaie, trop facile.









Drepanocytose a écrit :



NON.

Trop facile, ca. Quand un objet peut faire en sorte de laisser ton four allumé, tu te demandes un minimum ce qu’il se passe quand ca foire….

Le premier acteur de ta sécurité, c’est toi. Trop facile de reporter les soucis sur autrui et de s’en laver les mains sous pretexte qu’on a payé.





Il y a quand même des limites, notamment les normes de sécurité (CE, NF, etc).

Le fabriquant doit quand même assurer un niveau minimal.



Vous accepteriez d’utiliser un sèche cheveux non isolé électriquement ?

Ou un gros électro ménager sans prise terre ?

Tout le monde ne peut pas être spécialiste electricien (ou chimiste). Même avec les meilleurs efforts du monde, on ne peut pas etre le seul acteur de la sécurité.









Natsume a écrit :



Il y a quand même des limites, notamment les normes de sécurité (CE, NF, etc).

Le fabriquant doit quand même assurer un niveau minimal.



Vous accepteriez d’utiliser un sèche cheveux non isolé électriquement ?

Ou un gros électro ménager sans prise terre ?

Tout le monde ne peut pas être spécialiste electricien (ou chimiste). Même avec les meilleurs efforts du monde, on ne peut pas etre le seul acteur de la sécurité.





Plein de gens utilisent du gros electro sans prise de terre (s’il n’y a pas de terre chez eux, ce qui est le cas de bcp de vieilles maisons / vieux apparts).



Et si les produits sont vendus dans le commerce, c’est qu’ils respectent les normes CE (sinon c’est de la fraude, et c’est autre chose, là).



Là il ne s’agit pas d’être expert, il s’agit de reflechir un minimum : j’ai un truc qui allume mon four tout seul a distance , qu’est-ce qu’il se passe si la connexion se coupe ? Alors hop un petit test qui prend 3 secondes (debtrancher le net), et on est fixé.



Edit : et j’ai pas dit qu’on est le suel acteur de sa sécurité, j’ai dit qu’on est le premier acteur, ce qui est une grosse nuance.



La panne a commencé un peu avant 20h00 certains sites / jeux de EA sont tombés à ce moment la.


ah tiens je connaissais pas le Is It Down Right Now, je vais plutôt sur celui làhttp://www.downforeveryoneorjustme.com/ (plus sobre …)








hellmut a écrit :



le plus marrant étant que le dashboard de santé de S3 était hébergé… sur S3.<img data-src=" />

du coup pendant un bout de temps, tous les indicateurs étaient au vert. <img data-src=" />





Oui j’avais remarqué aussi<img data-src=" />

les binaires des repos github inaccessibles, sur&nbsp; github-cloud.s3.amazonaws.com

forcément…



&nbsp;”[l’électricité] ça marche chez moi [à Paris]” =&gt; “ça marche en dev”&nbsp;<img data-src=" />&nbsp;





vloz a écrit :



Parce que les fournisseurs d’offre cloud revendiquent 100 fois moins de pannes que ta centrale EDF…&nbsp;

J’ai lu sur twitter qu’il n’y avait pas eu de panne généralisé d’aws depuis 5ans…&nbsp;

C’est pas des hebergement OVH hein… :/&nbsp;







Enedis rapporte&nbsp;en moyenne&nbsp;61min de coupure&nbsp;par client&nbsp;sur 2015.

Ça fait un&nbsp;SLA de 99.9884%.



Amazon S3 a (soit disant) été conçu pour avoir une&nbsp;dispo de 99,99%&nbsp;(53min annuel).

Par contre ils ne (s’engagent et ne) commencent à te rembourser (re-créditer) qu’à partir de 99.9%&nbsp;(8h45 annuel).



Donc, certes on est sur la durée d’indispo et non sur le nombre de pannes, mais on est sur des qualité de service comparables (et pas dégueu qui plus est ^^).



Pour info, chez OVH le SLA des dédiés est aussi dans le même ordre de grandeur.

J’ai pas réussi à trouver d’info sur les petits mutualisés tout pourris ^^









darkbeast a écrit :



Bienvenue dans le monde du tout connecté c’est bien vous verrez ……



Pour le four qui ne veut plus s’éteindre c’est pas cool, si ça arrive que t’es en vacances et que le four ne se coupe pas après retour du cloud, tu reviens soit avec une facture edf à faire pâlir la tour Eiffel, soit ta maison est remplacée par un tas de cendres.







Si tu pars en vacances en laissant consciemment ton four allumé, tu mérites que l’un ou l’autre t’arrive.









RomRomRomRom a écrit :



“[l’électricité] ça marche chez moi [à Paris]” =&gt; “ça marche en dev” <img data-src=" />





Arf :-) .

Je pense que citer l’agglomération parisienne a du sens parce que ça concerne déjà pas mal de monde :-) . Je ne sais pas s’il y a moins de panne à Paris et villes limitrophes qu’à la limite de la grande couronne, par exemple.







RomRomRomRom a écrit :



Enedis rapporte en moyenne 61min de coupure par client sur 2015.

Ça fait un SLA de 99.9884%.





Merci pour le chiffre, effectivement pas mal du tout. En plus si on enlève les coupures planifiées (tout de suite moins gênant) le chiffre est encore meilleur, plutôt 45 min en 2015. Vu le 0,5 min par an chez moi (à la louche 5 min 1 fois tous les 10 ans), ça veut dire que certains doivent morfler dans certains coins, avec des 2-3 h et plus <img data-src=" /> .

Ce chiffre ne tient pas compte de toutes les coupures j’ai l’impression : “Les valeurs affichées correspondent à des durées moyennes annuelles de coupures générées par Enedis hors événements exceptionnels (hors RTE).”, donc pas les tempêtes j’imagine. Je serais curieux de savoir le taux pour Paris (ou Lyon ou Toulouse, ça devrait être pareil).









pv_le_worm a écrit :



Si tu pars en vacances en laissant consciemment ton four allumé, tu mérites que l’un ou l’autre t’arrive.





là apparemment ça a allumé les appareils tout seul









OlivierJ a écrit :



Arf :-) .

Je pense que citer l’agglomération parisienne a du sens parce que ça concerne déjà pas mal de monde :-) . Je ne sais pas s’il y a moins de panne à Paris et villes limitrophes qu’à la limite de la grande couronne, par exemple.





Merci pour le chiffre, effectivement pas mal du tout. En plus si on enlève les coupures planifiées (tout de suite moins gênant) le chiffre est encore meilleur, plutôt 45 min en 2015. Vu le 0,5 min par an chez moi (à la louche 5 min 1 fois tous les 10 ans), ça veut dire que certains doivent morfler dans certains coins, avec des 2-3 h et plus <img data-src=" /> .

Ce chiffre ne tient pas compte de toutes les coupures j’ai l’impression : “Les valeurs affichées correspondent à des durées moyennes annuelles de coupures générées par Enedis hors événements exceptionnels (hors RTE).”, donc pas les tempêtes j’imagine. Je serais curieux de savoir le taux pour Paris (ou Lyon ou Toulouse, ça devrait être pareil).





je sais pas si les coupures du au tempêtes sont comptées mais dans ce cas la ce sont les habitants des cotes qui font péter les chiffres



Mettre des objets aussi commun que le four, des ampoules sur internet c’est pour moi de l’idiotie.

Je ne comprends pas cette envie de voir son chez soi gérer par un tiers.


Le datacenter qui coupera le courant à des millions d’utilisateurs sous prétexte d’économies, ça n’a pas de prix <img data-src=" />


En même temps le “cloud” ça doit être mis en place par l’utilisateur chez Amazon, et ils le disent.

Être sur une seule zone ce n’est évidemment pas secure, même si déjà ça tient pas trop mal le coup.



La souplesse des solutions cloudesques c’est justement de pouvoir parer à ces problèmes, mais il faut bien que quelqu’un s’en occupe, entre le fournisseur et le client <img data-src=" />


En ce moment je constate beaucoup d’instabilités que ce soit pour les sites ou les serveurs de jeux (steam uplay..). Ca ne se connecte pas ou difficilement et par moment tout se coupe. C’est assez frustrant.