Mutualisé : OVH s'explique sur la panne de 50 000 sites et annonce un geste commercial

Mutualisé : OVH s’explique sur la panne de 50 000 sites et annonce un geste commercial

MARCEL, ça goutte !

Avatar de l'auteur
Sébastien Gavois

Publié dans

Internet

07/07/2017 7 minutes
33

Mutualisé : OVH s'explique sur la panne de 50 000 sites et annonce un geste commercial

50 000 sites mutualisés hors service pendant une journée. C'est le cauchemar vécu par OVH en fin de semaine dernière. Dans un long billet de blog, l'hébergeur revient sur cet incident et répond aux interrogations que nous avions soulevées. OVH annonce dans le même temps un geste commercial pour les clients impactés.

La semaine dernière, OVH a subi une importante panne sur son offre d'hébergement mutualisé. Nous avions alors détaillé le déroulement des opérations et expliqué que l'hébergeur faisait part d'une certaine transparence... mais pas trop non plus sur certains points. Nous pointions notamment du doigt la mention d'une fuite d'eau ayant disparu d'un ticket d'incident.

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

Dans un long billet de blog, l'hébergeur retrace le déroulement des opérations, quasiment heure par heure, et fait un « mea culpa » sur sa communication. Il revient également en détail sur les causes et les conséquences de cette panne qui a impacté 50 000 sites sur les 3 millions hébergés.

Pour commencer, oui, c'est bien une fuite d'eau qui est en cause : « À 18h48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires ». La baie s'est donc arrêtée.

Si l'indication d'une fuite d'eau a disparu du ticket d'incident, c'est à cause de deux éléments affirme la société : « il est difficile de communiquer sur les sujets entourant le watercooling sans prendre le risque de révéler, indirectement, des secrets industriels qui pourraient intéresser nos concurrents ».

De plus, « dans l’imaginaire collectif, le liquide et les serveurs, c’est une alliance plutôt contre-nature. D’où nos précautions, maladroites il faut le reconnaître, sur le sujet ». OVH aurait-il fait toute la lumière sur cette histoire de fuite si le ticket initial ne la mentionnait pas ? 

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Rappelons tout de même qu'OVH utilise des systèmes maison de watercooling depuis maintenant 14 ans (voir notre visite du datacenter 4 de Roubaix en 2011), la société ne s'en cache d'ailleurs pas. Et cela ne semble pas poser de problème particulier, hormis celui de la semaine dernière bien évidemment.

« C’est un système qui comporte peu de risques, en comparaison avec une panne de climatisation occasionnant la surchauffe d’une salle et inéluctablement l’arrêt des équipements informatiques » indique d'ailleurs l'hébergeur sur son blog. Il rappelle au passage un incident de 2014 que nous avions également évoqué : de la condensation sur un module de climatisation avait entrainé une panne de deux switchs dans deux baies différentes. Bref, aucun système n'est parfait...

Dans le cas d'OVH, de nombreuses sondes sont installées afin de détecter la présence de liquide dans une baie. En cas d'urgence, ce qui était le cas jeudi dernier, le système MARCEL (Monitoring Audio des Réseaux Composants Équipements et Locaux) s'enclenche : il « permet de diffuser un message audio dans nos datacenters grâce à une voix de synthèse et à des haut-parleurs disposés dans chaque salle » explique la société.

Aphone, MARCEL retarde l'intervention du technicien

Manque de chance, « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». Or, un problème dans cette procédure, réalisée le jour même, a empêché cette alerte de fonctionner.

Conséquence, au lieu d'intervenir immédiatement, le technicien est arrivé dans la salle onze minutes après la détection de la fuite. Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure, privant de bases de données 50 000 sites web, excusez du peu.

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Autre zone d'ombre que nous avions relevée, et auquel répond OVH dans son billet de blog : la question des baies de stockage d'EMC. Le ticket initial avait été mis à jour par Octave Klaba afin d'ajouter un paragraphe pour blanchir son partenaire et expliquer que « la technologie d'EMC n'est pas à l'origine de l'incident ».

Dans son message initial, le directeur général d'OVH laissait « involontairement penser que la baie présente un défaut dont le constructeur pourrait être tenu responsable. Constatant l’interprétation faite de son message, il se ravise et modifie la tâche travaux pour mettre hors de cause le constructeur ». Le problème étant qu'aucun indicateur ne permet de savoir qu'une mise à jour a été faite ou non, ni la nature des modifications apportées.

Sur son blog, OVH ajoute que le fait de disculper EMC ne fait suite à aucune demande ou pression de la part de son partenaire. Pour rappel, EMC nous avait fait une déclaration similaire lundi matin.

Bientôt une équipe dédiée à la communication en cas de crise

OVH prend note de ces problématiques liées à la communication et annonce qu'il mettra en place une équipe spécialisée pour « délivrer aux utilisateurs une information dont la qualité est adaptée à ce type de situation ». Elle doit non seulement être transparente, mais aussi cohérente affirme l'hébergeur. Espérons que la cohérence ne vienne pas empiéter sur la transparence.

Dans tous les cas, on ne peut pas reprocher à OVH d'avoir voulu étouffer l'incident, les tickets d'incidents étant régulièrement mis à jour par ses équipes sur l'avancement de l'enquête et des procédures mises en place. Par contre, on regrette qu'il n'ait pas souhaité nous préciser pourquoi les billets avaient été mis à jour lorsque nous l'avions contacté lundi matin.

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Concernant les données sur la baie de stockage EMC qui ne voulait plus démarrer, OVH a une mauvaise nouvelle (comme on pouvait s'y attendre) : « nous constatons qu’il n’est pas possible de la remettre en fonctionnement, ceci malgré toutes les actions entreprises avec les équipes support constructeur ».

La sauvegarde remise en circulation reste donc en place, ce qui entraine une perte de données sur une période allant de 1h à 22h avant l'incident. La société en profite pour donner quelques précisions : il s’agissait « d’une sauvegarde d’infrastructure globale », réalisée dans le cadre d'un plan de reprise d’activité et non des snapshots des bases de données accessibles aux clients. « Restaurer les données ne signifie pas seulement migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il s’agit de recréer l’ensemble de l’environnement de production ».

Petite consolation pour les clients touchés, OVH va mettre en place un geste commercial : « prolonger gracieusement l’offre d’hébergement web des utilisateurs concernés de deux mois ». Les modalités seront dévoilées dans les prochains jours. 

Enfin, il est question d'une refonte des offres d’hébergement web : « nous envisageons ainsi d’apporter, à ceux qui en ont l’utilité, des garanties supplémentaires aux clients, justifiant par exemple l’existence d’un SLA contractuel ». Tous les détails seront communiqués ultérieurement.

Écrit par Sébastien Gavois

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Aphone, MARCEL retarde l'intervention du technicien

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Bientôt une équipe dédiée à la communication en cas de crise

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Fermer

Commentaires (33)


J’ai eu une panne sur un de mes VPS chez eux entre le 47 18h et le 57 13h environ. Ça fait long…



Mon service a été prolongé de 3 semaines, après réclamation (j’aurais peut-être obtenu la même chose sans réclamer ceci dit).



Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive : dans la tâche travaux, mon VPS n’était pas mentionné au départ et pendant de longues heures (ce qui met le doute pour rien), et ce n’est qu’une fois avoir ouvert un ticket que la tâche travaux a été mise à jour avec l’identifiant de mon VPS ajouté à la longue liste.



 Le support a été “assez” réactif sur mon ticket, pour OVH en tout cas (pas mal d’heures pour répondre), mais globalement ça reste décevant.



Du coup j’ai pris un VPS ailleurs, et j’en laisserai tomber un chez OVH à l’échéance. Plus cher, mais avec une assistance hyper réactive.


OVH a passé certains serveurs en paiement mensuel à du paiement annuel sans prévenir les propriétaires et du coup si ils ne payaient pas 12 mois d’un seul coup, ils étaient coupés.

ça s’appelle du Racket.

 




Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d’envergure





Me semble bien avoir vu un truc comme ca dans “Destination finale”…


J’adore cette série de films, une vrai publicité contre les accidents domestiques…




une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires



Fallait utiliser une baie de stockage sous GPL.<img data-src=" />



dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour



Y a plus qu’a se relever les manches… <img data-src=" />





Il s’agit de recréer l’ensemble de l’environnement de production



Je souhaite un bon WE aux techniciens.<img data-src=" />


Ce n’est pas du racket puisque la somme demandé est due… Cela-dit ce n’est pas très correcte non plus.


Ya pire <img data-src=" />

Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l’échangeur d’un 3084 IBM à refroidissement par eau.

La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.

Sauf que …

Un mec ( un stagiaire sûrement) avait stocké les bidons d’acide des batteries d’UPS dans la salle de refroidissement et avait stocké l’eau déminéralisée dans la salle des batteries… mêmes bidons.

Ben quand il a posé le bidon par terre il s’en est aperçu ! à l’odeur !

trop tard! les pompes marchaient à merveille

en fait ils ont fini par remplacer la bécane en entier ( la taille d’un terrain de tennis <img data-src=" /> )

ça se passait en Allemagne

<img data-src=" />



souvenirs souvenirs








Ricard a écrit :



dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour



Y a plus qu’a se relever les manches… <img data-src=" />







Y’a pas de manches sur un Marcel.









SebGF a écrit :



Y’a pas de manches sur un Marcel.







Ben oui, justement. <img data-src=" />









JoePike a écrit :



Ya pire <img data-src=" />

Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l’échangeur d’un 3084 IBM à refroidissement par eau.

La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.

Sauf que …

Un mec ( un stagiaire sûrement) avait stocké les bidons d’acide des batteries d’UPS dans la salle de refroidissement et avait stocké l’eau déminéralisée dans la salle des batteries… mêmes bidons.

Ben quand il a posé le bidon par terre il s’en est aperçu ! à l’odeur !

trop tard! les pompes marchaient à merveille

en fait ils ont fini par remplacer la bécane en entier ( la taille d’un terrain de tennis <img data-src=" /> )

ça se passait en Allemagne

<img data-src=" />



souvenirs souvenirs





<img data-src=" /><img data-src=" /><img data-src=" />



Ya que moi qui trouve bizarre que le système d’alerte soit coupé ? Pour faire du “multilangue” en france ? 1 seule langue (anglais ou langue locale) sufirait…


&nbsp;«&nbsp;dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs&nbsp;langues&nbsp;». ;)


Oui, oui. J’ai lu. Mais je comprend ceci : MARCEL devait emettre en plusieurs langues. D’ou ma reflexion: pourquoi pas garder une langue unique. Je pars du principe que leurs tech doivent au moins comprendre l’anglais.



Au passage, j’en deduis aussi que le tech qui va sur place est le meme qui est derriere les console a verifier que tout est ok, et donc que si il y a un soucis, et qu’il est dans une salle, il est avertit par haut parleur. J’aurais plutôt imaginé au moins 2 persones, histoire d’avoir toujours quelqu’un devant les consoles, meme si l’autre va pisser/changer un disque/manger


Langue unique quand tu es un acteur français en France c’est facile, c’est le français

Quand tu es à l’étranger tu dois passer à l’anglais =&gt; mise à jour



Tu peux avoir 3 personnes ça ne change rien. Si l’un est en train de faire de la maintenance, que le deuxième va pisser pendant que le troisième mange, tu n’as personne devant l’écran








PtiDidi a écrit :



Langue unique quand tu es un acteur français en France c’est facile, c’est le français

Quand tu es à l’étranger tu dois passer à l’anglais =&gt; mise à jour



Tu peux avoir 3 personnes ça ne change rien. Si l’un est en train de faire de la maintenance, que le deuxième va pisser pendant que le troisième mange, tu n’as personne devant l’écran





Bah du coup tu a une faute grave : tu paye 3 personnes pour que au moins 1 soit dispo en permanemce devant les consoles et soit tu a un incontinent, soit il a quitté son poste.

M’enfin on dira que j’ai rien dit puis voila.



Ils essayent pas aussi de foutre en place le prélèvement mensuel sur leur merde ?



J’utilise un kimsufi que je paye à la CB où je peux prendre plusieurs mois si je veux et pour résilier, j’arrête simplement de payer, mais ce mois-ci j’ai pour la 1ere fois eu une espèce de facture dù pour ce serveur, que j’ai payé en CB comme je le fais depuis toujours, mais je n’arrive plus à prendre des mois “d’avances” comme avant :/.


Quels guignols… c’est incident sur incident… quand on voit leur datacenter c’est effarant. D’autres prestataires sont bien plus sérieux, notamment en France.


moins de 24 heures de coupure en 10 ans pour certaines machines pour des trucs à quelques Euros/mois, et c’est horrible, vraiment? J’ai l’impression que les gens demandent tout à pas cher…

Quand au “VPS ailleurs”, il est super jusqu’à la panne suivante (qui n’arrive pas qu’aux autres), et la on aura le droit au même discours “bouh horrible je vais ailleurs).

Rappel : Même Google ou Twitter et j’en passe ont connu des (énormes) pannes.



En attendant, même avec cet incident, OVH reste un très bon rapport qualité/prix n’en déplaise aux grincheux.



Note : si on veut une meilleure QoS, prendre un unique VPS ailleurs ne suffit pas, toujours dépendant d’une panne (matérielle ou humaine), il faut prendre 2 VPS chez 2 hébergeurs différents, et travailler pour que ses services gèrent bien la redondance. Allez au travail.


Au moins ils communiquent sur leurs pannes, pas comme 1&1…


Juste +1.



La qualité de service est toujours proportionnelle à la hauteur des moyens mis dedans.



Et même sur du “local” (datacenter interne à l’entreprise) on a ce genre d’excès. Du style le service refuse de payer pour avoir de la haute dispo et chiale pour la moindre coupure (panne/maintenance..). Alors que contractuellement, ils ont dit tolérer 4 jours d’interruption pour ne pas avoir à payer plus cher… <img data-src=" />








Jerome7573 a écrit :



moins de 24 heures de coupure en 10 ans pour certaines machines pour des trucs à quelques Euros/mois, et c’est horrible, vraiment? J’ai l’impression que les gens demandent tout à pas cher…

Quand au “VPS ailleurs”, il est super jusqu’à la panne suivante (qui n’arrive pas qu’aux autres), et la on aura le droit au même discours “bouh horrible je vais ailleurs).

Rappel : Même Google ou Twitter et j’en passe ont connu des (énormes) pannes.



En attendant, même avec cet incident, OVH reste un très bon rapport qualité/prix n’en déplaise aux grincheux.



Note : si on veut une meilleure QoS, prendre un unique VPS ailleurs ne suffit pas, toujours dépendant d’une panne (matérielle ou humaine), il faut prendre 2 VPS chez 2 hébergeurs différents, et travailler pour que ses services gèrent bien la redondance. Allez au travail.





+1



Et dans le fond avec 2 vps chez ovh sur des datacenters differents le risque de panne complete est deja proche du 0 absolu.



Dans le fond une machine a 3€/mois c’est deja un prix super compétitif, et rien n’empêche d’en prendre 2 si le besoin de continuité est important.



Grincheux toi même ^^



A la base mon propos c’est “Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive”Et j’ai pris un autre service pour remplacer un des 2 VPS que j’ai actuellement chez OVH.Capito ?


Je trouve que certains ont un niveau d’exigence hors norme vis-à-vis d’OVH.



J’ai pas d’actions chez eux, mais:





  • Aucun prestataire, quel qu’il soit, ne peut arriver à 100 %

  • Ils ont communiqué assez clairement sur le problème

  • Ils ont fait un geste commercial



    Aucun société ne peut te garantir qu’une panne similaire ne leur arrivera pas et qu’ils seront plus réactifs en cas de panne.Bref, comme dit dans pas mal de commentaires, si vous voulez un meilleur SLA, prenez-en deux!








Antwan a écrit :



Quels guignols… c’est incident sur incident… quand on voit leur datacenter c’est effarant. D’autres prestataires sont bien plus sérieux, notamment en France.





Et bien plus chers (ou alors je veux bien des exemples)



online


Les liquides de watercooling ne sont pas sensé ne pas conduire l’éléctricité et etre sans danger pour les composants?


Comme son nom l’indique, il s’agit d’un refroidissement à l’eau (Water). Et l’eau est bien conductrice.


A la base oui, mais aujourd’hui il existe des liquides non conducteurs électrique, j’ai meme vu des pc entier en fonctionnement immergés dans des liquides pour les refroidir.


Dans le cas du pc entier immergé, le liquide se trouve être de l’huile.


Encore une histoire de plombier polonais avec son marcel, il a du travailler trop vite et a du prendre la fuite en même temps que le liquide de refroidissement…<img data-src=" />



<img data-src=" />


Je vous l’avais bien dit que c’était un écureuil .


La visite citée dans l’article précise pourtant que le liquide n’est pas conducteur…


Le but d’un PRA n’est-il pas de répliquer son installation dans un endroit physiquement éloigné du système en production ?

Ceci dans l’objectif de ne pas subir les désagrément d’une inondation, d’un incendie ou que sais-je ?

Je travaille dans une PME, on ne fait pas de l’hébergement notre métier et nous n’avons pas le même portefeuille qu’OVH pourtant, en cas de sinistre, nous ne perdons que 5 min de travail.

Je trouve ça scandaleux qu’un hébergeur aussi réputé qu’OVH arrive à perdre des données.

Je me mets à la place des commerçants et autres 50 000 victimes, les deux mois gratis je m’en tamponne le coquillard.