Mutualisé : OVH s’explique sur la panne de 50 000 sites et annonce un geste commercial

MARCEL, ça goutte !

50 000 sites mutualisés hors service pendant une journée. C'est le cauchemar vécu par OVH en fin de semaine dernière. Dans un long billet de blog, l'hébergeur revient sur cet incident et répond aux interrogations que nous avions soulevées. OVH annonce dans le même temps un geste commercial pour les clients impactés.

La semaine dernière, OVH a subi une importante panne sur son offre d'hébergement mutualisé. Nous avions alors détaillé le déroulement des opérations et expliqué que l'hébergeur faisait part d'une certaine transparence... mais pas trop non plus sur certains points. Nous pointions notamment du doigt la mention d'une fuite d'eau ayant disparu d'un ticket d'incident.

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

Dans un long billet de blog, l'hébergeur retrace le déroulement des opérations, quasiment heure par heure, et fait un « mea culpa » sur sa communication. Il revient également en détail sur les causes et les conséquences de cette panne qui a impacté 50 000 sites sur les 3 millions hébergés.

Pour commencer, oui, c'est bien une fuite d'eau qui est en cause : « À 18h48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires ». La baie s'est donc arrêtée.

Si l'indication d'une fuite d'eau a disparu du ticket d'incident, c'est à cause de deux éléments affirme la société : « il est difficile de communiquer sur les sujets entourant le watercooling sans prendre le risque de révéler, indirectement, des secrets industriels qui pourraient intéresser nos concurrents ».

De plus, « dans l’imaginaire collectif, le liquide et les serveurs, c’est une alliance plutôt contre-nature. D’où nos précautions, maladroites il faut le reconnaître, sur le sujet ». OVH aurait-il fait toute la lumière sur cette histoire de fuite si le ticket initial ne la mentionnait pas ?

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Rappelons tout de même qu'OVH utilise des systèmes maison de watercooling depuis maintenant 14 ans (voir notre visite du datacenter 4 de Roubaix en 2011), la société ne s'en cache d'ailleurs pas. Et cela ne semble pas poser de problème particulier, hormis celui de la semaine dernière bien évidemment.

« C’est un système qui comporte peu de risques, en comparaison avec une panne de climatisation occasionnant la surchauffe d’une salle et inéluctablement l’arrêt des équipements informatiques » indique d'ailleurs l'hébergeur sur son blog. Il rappelle au passage un incident de 2014 que nous avions également évoqué : de la condensation sur un module de climatisation avait entrainé une panne de deux switchs dans deux baies différentes. Bref, aucun système n'est parfait...

Dans le cas d'OVH, de nombreuses sondes sont installées afin de détecter la présence de liquide dans une baie. En cas d'urgence, ce qui était le cas jeudi dernier, le système MARCEL (Monitoring Audio des Réseaux Composants Équipements et Locaux) s'enclenche : il « permet de diffuser un message audio dans nos datacenters grâce à une voix de synthèse et à des haut-parleurs disposés dans chaque salle » explique la société.

Aphone, MARCEL retarde l'intervention du technicien

Manque de chance, « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». Or, un problème dans cette procédure, réalisée le jour même, a empêché cette alerte de fonctionner.

Conséquence, au lieu d'intervenir immédiatement, le technicien est arrivé dans la salle onze minutes après la détection de la fuite. Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure, privant de bases de données 50 000 sites web, excusez du peu.

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Autre zone d'ombre que nous avions relevée, et auquel répond OVH dans son billet de blog : la question des baies de stockage d'EMC. Le ticket initial avait été mis à jour par Octave Klaba afin d'ajouter un paragraphe pour blanchir son partenaire et expliquer que « la technologie d'EMC n'est pas à l'origine de l'incident ».

Dans son message initial, le directeur général d'OVH laissait « involontairement penser que la baie présente un défaut dont le constructeur pourrait être tenu responsable. Constatant l’interprétation faite de son message, il se ravise et modifie la tâche travaux pour mettre hors de cause le constructeur ». Le problème étant qu'aucun indicateur ne permet de savoir qu'une mise à jour a été faite ou non, ni la nature des modifications apportées.

Sur son blog, OVH ajoute que le fait de disculper EMC ne fait suite à aucune demande ou pression de la part de son partenaire. Pour rappel, EMC nous avait fait une déclaration similaire lundi matin.

Bientôt une équipe dédiée à la communication en cas de crise

OVH prend note de ces problématiques liées à la communication et annonce qu'il mettra en place une équipe spécialisée pour « délivrer aux utilisateurs une information dont la qualité est adaptée à ce type de situation ». Elle doit non seulement être transparente, mais aussi cohérente affirme l'hébergeur. Espérons que la cohérence ne vienne pas empiéter sur la transparence.

Dans tous les cas, on ne peut pas reprocher à OVH d'avoir voulu étouffer l'incident, les tickets d'incidents étant régulièrement mis à jour par ses équipes sur l'avancement de l'enquête et des procédures mises en place. Par contre, on regrette qu'il n'ait pas souhaité nous préciser pourquoi les billets avaient été mis à jour lorsque nous l'avions contacté lundi matin.

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Concernant les données sur la baie de stockage EMC qui ne voulait plus démarrer, OVH a une mauvaise nouvelle (comme on pouvait s'y attendre) : « nous constatons qu’il n’est pas possible de la remettre en fonctionnement, ceci malgré toutes les actions entreprises avec les équipes support constructeur ».

La sauvegarde remise en circulation reste donc en place, ce qui entraine une perte de données sur une période allant de 1h à 22h avant l'incident. La société en profite pour donner quelques précisions : il s’agissait « d’une sauvegarde d’infrastructure globale », réalisée dans le cadre d'un plan de reprise d’activité et non des snapshots des bases de données accessibles aux clients. « Restaurer les données ne signifie pas seulement migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il s’agit de recréer l’ensemble de l’environnement de production ».

Petite consolation pour les clients touchés, OVH va mettre en place un geste commercial : « prolonger gracieusement l’offre d’hébergement web des utilisateurs concernés de deux mois ». Les modalités seront dévoilées dans les prochains jours.

Enfin, il est question d'une refonte des offres d’hébergement web : « nous envisageons ainsi d’apporter, à ceux qui en ont l’utilité, des garanties supplémentaires aux clients, justifiant par exemple l’existence d’un SLA contractuel ». Tous les détails seront communiqués ultérieurement.

Commentaires (33)

chantoine

Le 07/07/2017 à 16h 09

J’ai eu une panne sur un de mes VPS chez eux entre le ⁴⁄₇ 18h et le ⁵⁄₇ 13h environ. Ça fait long…

Mon service a été prolongé de 3 semaines, après réclamation (j’aurais peut-être obtenu la même chose sans réclamer ceci dit).

Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive : dans la tâche travaux, mon VPS n’était pas mentionné au départ et pendant de longues heures (ce qui met le doute pour rien), et ce n’est qu’une fois avoir ouvert un ticket que la tâche travaux a été mise à jour avec l’identifiant de mon VPS ajouté à la longue liste.

 Le support a été “assez” réactif sur mon ticket, pour OVH en tout cas (pas mal d’heures pour répondre), mais globalement ça reste décevant.

Du coup j’ai pris un VPS ailleurs, et j’en laisserai tomber un chez OVH à l’échéance. Plus cher, mais avec une assistance hyper réactive.

Nico4271

Le 07/07/2017 à 16h 29

OVH a passé certains serveurs en paiement mensuel à du paiement annuel sans prévenir les propriétaires et du coup si ils ne payaient pas 12 mois d’un seul coup, ils étaient coupés.

ça s’appelle du Racket.

 

127.0.0.1

Le 07/07/2017 à 16h 37

Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d’envergure

Me semble bien avoir vu un truc comme ca dans “Destination finale”…

gloutch

Le 07/07/2017 à 16h 40

J’adore cette série de films, une vrai publicité contre les accidents domestiques…

Ricard

Le 07/07/2017 à 16h 51

une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires

Fallait utiliser une baie de stockage sous GPL." />

dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour

Y a plus qu’a se relever les manches… " />

Il s’agit de recréer l’ensemble de l’environnement de production

Je souhaite un bon WE aux techniciens." />

NSACloudBackup

Le 07/07/2017 à 17h 11

Ce n’est pas du racket puisque la somme demandé est due… Cela-dit ce n’est pas très correcte non plus.

JoePike

Le 07/07/2017 à 17h 29

Ya pire " />

Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l’échangeur d’un 3084 IBM à refroidissement par eau.

La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.

Sauf que …

Un mec ( un stagiaire sûrement) avait stocké les bidons d’acide des batteries d’UPS dans la salle de refroidissement et avait stocké l’eau déminéralisée dans la salle des batteries… mêmes bidons.

Ben quand il a posé le bidon par terre il s’en est aperçu ! à l’odeur !

trop tard! les pompes marchaient à merveille

en fait ils ont fini par remplacer la bécane en entier ( la taille d’un terrain de tennis " /> )

ça se passait en Allemagne

" />

souvenirs souvenirs

SebGF Abonné

Le 07/07/2017 à 19h 05

Ricard a écrit :

dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour

Y a plus qu’a se relever les manches… " />

Y’a pas de manches sur un Marcel.

Le 07/07/2017 à 19h 09

SebGF a écrit :

Y’a pas de manches sur un Marcel.

Ben oui, justement. " />

linkin623

Le 07/07/2017 à 20h 22

#10

JoePike a écrit :

Ya pire " />

Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l’échangeur d’un 3084 IBM à refroidissement par eau.

La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.

Sauf que …

Un mec ( un stagiaire sûrement) avait stocké les bidons d’acide des batteries d’UPS dans la salle de refroidissement et avait stocké l’eau déminéralisée dans la salle des batteries… mêmes bidons.

Ben quand il a posé le bidon par terre il s’en est aperçu ! à l’odeur !

trop tard! les pompes marchaient à merveille

en fait ils ont fini par remplacer la bécane en entier ( la taille d’un terrain de tennis " /> )

ça se passait en Allemagne

" />

souvenirs souvenirs

" />" />" />

David.C Abonné

Le 07/07/2017 à 21h 51

#11

Ya que moi qui trouve bizarre que le système d’alerte soit coupé ? Pour faire du “multilangue” en france ? 1 seule langue (anglais ou langue locale) sufirait…

NetSkylz

Le 07/07/2017 à 22h 03

#12

 « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». ;)

Le 07/07/2017 à 22h 12

#13

Oui, oui. J’ai lu. Mais je comprend ceci : MARCEL devait emettre en plusieurs langues. D’ou ma reflexion: pourquoi pas garder une langue unique. Je pars du principe que leurs tech doivent au moins comprendre l’anglais.

Au passage, j’en deduis aussi que le tech qui va sur place est le meme qui est derriere les console a verifier que tout est ok, et donc que si il y a un soucis, et qu’il est dans une salle, il est avertit par haut parleur. J’aurais plutôt imaginé au moins 2 persones, histoire d’avoir toujours quelqu’un devant les consoles, meme si l’autre va pisser/changer un disque/manger

PtiDidi Abonné

Le 07/07/2017 à 22h 18

#14

Langue unique quand tu es un acteur français en France c’est facile, c’est le français

Quand tu es à l’étranger tu dois passer à l’anglais => mise à jour

Tu peux avoir 3 personnes ça ne change rien. Si l’un est en train de faire de la maintenance, que le deuxième va pisser pendant que le troisième mange, tu n’as personne devant l’écran

Le 07/07/2017 à 22h 27

#15

PtiDidi a écrit :

Langue unique quand tu es un acteur français en France c’est facile, c’est le français

Quand tu es à l’étranger tu dois passer à l’anglais => mise à jour

Tu peux avoir 3 personnes ça ne change rien. Si l’un est en train de faire de la maintenance, que le deuxième va pisser pendant que le troisième mange, tu n’as personne devant l’écran

Bah du coup tu a une faute grave : tu paye 3 personnes pour que au moins 1 soit dispo en permanemce devant les consoles et soit tu a un incontinent, soit il a quitté son poste.

M’enfin on dira que j’ai rien dit puis voila.

Kazer2.0 Abonné

Le 08/07/2017 à 10h 37

#16

Ils essayent pas aussi de foutre en place le prélèvement mensuel sur leur merde ?

J’utilise un kimsufi que je paye à la CB où je peux prendre plusieurs mois si je veux et pour résilier, j’arrête simplement de payer, mais ce mois-ci j’ai pour la 1ere fois eu une espèce de facture dù pour ce serveur, que j’ai payé en CB comme je le fais depuis toujours, mais je n’arrive plus à prendre des mois “d’avances” comme avant :/.

Antwan

Le 08/07/2017 à 10h 58

#17

Quels guignols… c’est incident sur incident… quand on voit leur datacenter c’est effarant. D’autres prestataires sont bien plus sérieux, notamment en France.

Jerome7573 Abonné

Le 08/07/2017 à 12h 37

#18

moins de 24 heures de coupure en 10 ans pour certaines machines pour des trucs à quelques Euros/mois, et c’est horrible, vraiment? J’ai l’impression que les gens demandent tout à pas cher…

Quand au “VPS ailleurs”, il est super jusqu’à la panne suivante (qui n’arrive pas qu’aux autres), et la on aura le droit au même discours “bouh horrible je vais ailleurs).

Rappel : Même Google ou Twitter et j’en passe ont connu des (énormes) pannes.

En attendant, même avec cet incident, OVH reste un très bon rapport qualité/prix n’en déplaise aux grincheux.

Note : si on veut une meilleure QoS, prendre un unique VPS ailleurs ne suffit pas, toujours dépendant d’une panne (matérielle ou humaine), il faut prendre 2 VPS chez 2 hébergeurs différents, et travailler pour que ses services gèrent bien la redondance. Allez au travail.

Albirew Abonné

Le 08/07/2017 à 13h 41

#19

Au moins ils communiquent sur leurs pannes, pas comme 1&1…

Le 08/07/2017 à 15h 32

#20

Juste +1.

La qualité de service est toujours proportionnelle à la hauteur des moyens mis dedans.

Et même sur du “local” (datacenter interne à l’entreprise) on a ce genre d’excès. Du style le service refuse de payer pour avoir de la haute dispo et chiale pour la moindre coupure (panne/maintenance..). Alors que contractuellement, ils ont dit tolérer 4 jours d’interruption pour ne pas avoir à payer plus cher… " />

CR_B7 Abonné

Le 08/07/2017 à 15h 49

#21

Jerome7573 a écrit :

moins de 24 heures de coupure en 10 ans pour certaines machines pour des trucs à quelques Euros/mois, et c’est horrible, vraiment? J’ai l’impression que les gens demandent tout à pas cher…

Quand au “VPS ailleurs”, il est super jusqu’à la panne suivante (qui n’arrive pas qu’aux autres), et la on aura le droit au même discours “bouh horrible je vais ailleurs).

Rappel : Même Google ou Twitter et j’en passe ont connu des (énormes) pannes.

En attendant, même avec cet incident, OVH reste un très bon rapport qualité/prix n’en déplaise aux grincheux.

Note : si on veut une meilleure QoS, prendre un unique VPS ailleurs ne suffit pas, toujours dépendant d’une panne (matérielle ou humaine), il faut prendre 2 VPS chez 2 hébergeurs différents, et travailler pour que ses services gèrent bien la redondance. Allez au travail.

+1

Et dans le fond avec 2 vps chez ovh sur des datacenters differents le risque de panne complete est deja proche du 0 absolu.

Dans le fond une machine a 3€/mois c’est deja un prix super compétitif, et rien n’empêche d’en prendre 2 si le besoin de continuité est important.

Le 09/07/2017 à 17h 04

#22

Grincheux toi même ^^

A la base mon propos c’est “Ce que je reproche c’est une communication défaillante ou en tout cas peu réactive”Et j’ai pris un autre service pour remplacer un des 2 VPS que j’ai actuellement chez OVH.Capito ?

Sideroxylon

Le 09/07/2017 à 22h 31

#23

Je trouve que certains ont un niveau d’exigence hors norme vis-à-vis d’OVH.

J’ai pas d’actions chez eux, mais:

Aucun prestataire, quel qu’il soit, ne peut arriver à 100 %

Ils ont communiqué assez clairement sur le problème

Ils ont fait un geste commercial

Aucun société ne peut te garantir qu’une panne similaire ne leur arrivera pas et qu’ils seront plus réactifs en cas de panne.Bref, comme dit dans pas mal de commentaires, si vous voulez un meilleur SLA, prenez-en deux!

Network_23

Le 10/07/2017 à 07h 50

#24

Antwan a écrit :

Quels guignols… c’est incident sur incident… quand on voit leur datacenter c’est effarant. D’autres prestataires sont bien plus sérieux, notamment en France.

Et bien plus chers (ou alors je veux bien des exemples)

Le 10/07/2017 à 09h 39

#25

online

UtopY-Xte

Le 10/07/2017 à 10h 06

#26

Les liquides de watercooling ne sont pas sensé ne pas conduire l’éléctricité et etre sans danger pour les composants?

fred42 Abonné

Le 10/07/2017 à 12h 24

#27

Comme son nom l’indique, il s’agit d’un refroidissement à l’eau (Water). Et l’eau est bien conductrice.

Le 11/07/2017 à 11h 08

#28

A la base oui, mais aujourd’hui il existe des liquides non conducteurs électrique, j’ai meme vu des pc entier en fonctionnement immergés dans des liquides pour les refroidir.

Jeanprofite

Le 11/07/2017 à 11h 36

#29

Dans le cas du pc entier immergé, le liquide se trouve être de l’huile.

jmc007

Le 11/07/2017 à 20h 50

#30

Encore une histoire de plombier polonais avec son marcel, il a du travailler trop vite et a du prendre la fuite en même temps que le liquide de refroidissement…" />

" />

MeowMeow

Le 12/07/2017 à 10h 17

#31

Je vous l’avais bien dit que c’était un écureuil .

Carlito RS2

Le 12/07/2017 à 12h 33

#32

La visite citée dans l’article précise pourtant que le liquide n’est pas conducteur…

Ksyl

Le 12/07/2017 à 14h 46

#33

Le but d’un PRA n’est-il pas de répliquer son installation dans un endroit physiquement éloigné du système en production ?

Ceci dans l’objectif de ne pas subir les désagrément d’une inondation, d’un incendie ou que sais-je ?

Je travaille dans une PME, on ne fait pas de l’hébergement notre métier et nous n’avons pas le même portefeuille qu’OVH pourtant, en cas de sinistre, nous ne perdons que 5 min de travail.

Je trouve ça scandaleux qu’un hébergeur aussi réputé qu’OVH arrive à perdre des données.

Je me mets à la place des commerçants et autres 50 000 victimes, les deux mois gratis je m’en tamponne le coquillard.

Mutualisé : OVH s’explique sur la panne de 50 000 sites et annonce un geste commercial

MARCEL, ça goutte !

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Aphone, MARCEL retarde l'intervention du technicien

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Bientôt une équipe dédiée à la communication en cas de crise

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Tiens, en parlant de ça :

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Plus moins bien

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Science artificielle

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

Faille 1460-days

Sommaire de l'article

Introduction

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Aphone, MARCEL retarde l'intervention du technicien

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Bientôt une équipe dédiée à la communication en cas de crise

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Commentaires (33)