Mutualisé : OVH s'explique sur la panne de 50 000 sites et annonce un geste commercial

MARCEL, ça goutte ! 33
Accès libre
image dediée
Crédits : AKodisinghe/iStock
Web
Par
le vendredi 07 juillet 2017 à 17:50
Sébastien Gavois

50 000 sites mutualisés hors service pendant une journée. C'est le cauchemar vécu par OVH en fin de semaine dernière. Dans un long billet de blog, l'hébergeur revient sur cet incident et répond aux interrogations que nous avions soulevées. OVH annonce dans le même temps un geste commercial pour les clients impactés.

La semaine dernière, OVH a subi une importante panne sur son offre d'hébergement mutualisé. Nous avions alors détaillé le déroulement des opérations et expliqué que l'hébergeur faisait part d'une certaine transparence... mais pas trop non plus sur certains points. Nous pointions notamment du doigt la mention d'une fuite d'eau ayant disparu d'un ticket d'incident.

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

Dans un long billet de blog, l'hébergeur retrace le déroulement des opérations, quasiment heure par heure, et fait un « mea culpa » sur sa communication. Il revient également en détail sur les causes et les conséquences de cette panne qui a impacté 50 000 sites sur les 3 millions hébergés.

Pour commencer, oui, c'est bien une fuite d'eau qui est en cause : « À 18h48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires ». La baie s'est donc arrêtée.

Si l'indication d'une fuite d'eau a disparu du ticket d'incident, c'est à cause de deux éléments affirme la société : « il est difficile de communiquer sur les sujets entourant le watercooling sans prendre le risque de révéler, indirectement, des secrets industriels qui pourraient intéresser nos concurrents ».

De plus, « dans l’imaginaire collectif, le liquide et les serveurs, c’est une alliance plutôt contre-nature. D’où nos précautions, maladroites il faut le reconnaître, sur le sujet ». OVH aurait-il fait toute la lumière sur cette histoire de fuite si le ticket initial ne la mentionnait pas ? 

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Rappelons tout de même qu'OVH utilise des systèmes maison de watercooling depuis maintenant 14 ans (voir notre visite du datacenter 4 de Roubaix en 2011), la société ne s'en cache d'ailleurs pas. Et cela ne semble pas poser de problème particulier, hormis celui de la semaine dernière bien évidemment.

« C’est un système qui comporte peu de risques, en comparaison avec une panne de climatisation occasionnant la surchauffe d’une salle et inéluctablement l’arrêt des équipements informatiques » indique d'ailleurs l'hébergeur sur son blog. Il rappelle au passage un incident de 2014 que nous avions également évoqué : de la condensation sur un module de climatisation avait entrainé une panne de deux switchs dans deux baies différentes. Bref, aucun système n'est parfait...

Dans le cas d'OVH, de nombreuses sondes sont installées afin de détecter la présence de liquide dans une baie. En cas d'urgence, ce qui était le cas jeudi dernier, le système MARCEL (Monitoring Audio des Réseaux Composants Équipements et Locaux) s'enclenche : il « permet de diffuser un message audio dans nos datacenters grâce à une voix de synthèse et à des haut-parleurs disposés dans chaque salle » explique la société.

Aphone, MARCEL retarde l'intervention du technicien

Manque de chance, « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». Or, un problème dans cette procédure, réalisée le jour même, a empêché cette alerte de fonctionner.

Conséquence, au lieu d'intervenir immédiatement, le technicien est arrivé dans la salle onze minutes après la détection de la fuite. Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure, privant de bases de données 50 000 sites web, excusez du peu.

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Autre zone d'ombre que nous avions relevée, et auquel répond OVH dans son billet de blog : la question des baies de stockage d'EMC. Le ticket initial avait été mis à jour par Octave Klaba afin d'ajouter un paragraphe pour blanchir son partenaire et expliquer que « la technologie d'EMC n'est pas à l'origine de l'incident ».

Dans son message initial, le directeur général d'OVH laissait « involontairement penser que la baie présente un défaut dont le constructeur pourrait être tenu responsable. Constatant l’interprétation faite de son message, il se ravise et modifie la tâche travaux pour mettre hors de cause le constructeur ». Le problème étant qu'aucun indicateur ne permet de savoir qu'une mise à jour a été faite ou non, ni la nature des modifications apportées.

Sur son blog, OVH ajoute que le fait de disculper EMC ne fait suite à aucune demande ou pression de la part de son partenaire. Pour rappel, EMC nous avait fait une déclaration similaire lundi matin.

Bientôt une équipe dédiée à la communication en cas de crise

OVH prend note de ces problématiques liées à la communication et annonce qu'il mettra en place une équipe spécialisée pour « délivrer aux utilisateurs une information dont la qualité est adaptée à ce type de situation ». Elle doit non seulement être transparente, mais aussi cohérente affirme l'hébergeur. Espérons que la cohérence ne vienne pas empiéter sur la transparence.

Dans tous les cas, on ne peut pas reprocher à OVH d'avoir voulu étouffer l'incident, les tickets d'incidents étant régulièrement mis à jour par ses équipes sur l'avancement de l'enquête et des procédures mises en place. Par contre, on regrette qu'il n'ait pas souhaité nous préciser pourquoi les billets avaient été mis à jour lorsque nous l'avions contacté lundi matin.

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Concernant les données sur la baie de stockage EMC qui ne voulait plus démarrer, OVH a une mauvaise nouvelle (comme on pouvait s'y attendre) : « nous constatons qu’il n’est pas possible de la remettre en fonctionnement, ceci malgré toutes les actions entreprises avec les équipes support constructeur ».

La sauvegarde remise en circulation reste donc en place, ce qui entraine une perte de données sur une période allant de 1h à 22h avant l'incident. La société en profite pour donner quelques précisions : il s’agissait « d’une sauvegarde d’infrastructure globale », réalisée dans le cadre d'un plan de reprise d’activité et non des snapshots des bases de données accessibles aux clients. « Restaurer les données ne signifie pas seulement migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il s’agit de recréer l’ensemble de l’environnement de production ».

Petite consolation pour les clients touchés, OVH va mettre en place un geste commercial : « prolonger gracieusement l’offre d’hébergement web des utilisateurs concernés de deux mois ». Les modalités seront dévoilées dans les prochains jours. 

Enfin, il est question d'une refonte des offres d’hébergement web : « nous envisageons ainsi d’apporter, à ceux qui en ont l’utilité, des garanties supplémentaires aux clients, justifiant par exemple l’existence d’un SLA contractuel ». Tous les détails seront communiqués ultérieurement.


chargement
Chargement des commentaires...