Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Mutualisé : OVH s'explique sur la panne de 50 000 sites et annonce un geste commercial

MARCEL, ça goutte !
Internet 6 min
Mutualisé : OVH s'explique sur la panne de 50 000 sites et annonce un geste commercial
Crédits : AKodisinghe/iStock

50 000 sites mutualisés hors service pendant une journée. C'est le cauchemar vécu par OVH en fin de semaine dernière. Dans un long billet de blog, l'hébergeur revient sur cet incident et répond aux interrogations que nous avions soulevées. OVH annonce dans le même temps un geste commercial pour les clients impactés.

La semaine dernière, OVH a subi une importante panne sur son offre d'hébergement mutualisé. Nous avions alors détaillé le déroulement des opérations et expliqué que l'hébergeur faisait part d'une certaine transparence... mais pas trop non plus sur certains points. Nous pointions notamment du doigt la mention d'une fuite d'eau ayant disparu d'un ticket d'incident.

Communication floue sur la fuite d'eau : OVH s'excuse et s'explique

Dans un long billet de blog, l'hébergeur retrace le déroulement des opérations, quasiment heure par heure, et fait un « mea culpa » sur sa communication. Il revient également en détail sur les causes et les conséquences de cette panne qui a impacté 50 000 sites sur les 3 millions hébergés.

Pour commencer, oui, c'est bien une fuite d'eau qui est en cause : « À 18h48, le jeudi 29 juin, dans la salle 3 du datacenter P19, en raison d’une fissure sur un tuyau en plastique souple de notre système de watercooling, une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires ». La baie s'est donc arrêtée.

Si l'indication d'une fuite d'eau a disparu du ticket d'incident, c'est à cause de deux éléments affirme la société : « il est difficile de communiquer sur les sujets entourant le watercooling sans prendre le risque de révéler, indirectement, des secrets industriels qui pourraient intéresser nos concurrents ».

De plus, « dans l’imaginaire collectif, le liquide et les serveurs, c’est une alliance plutôt contre-nature. D’où nos précautions, maladroites il faut le reconnaître, sur le sujet ». OVH aurait-il fait toute la lumière sur cette histoire de fuite si le ticket initial ne la mentionnait pas ? 

OVH se veut rassurant sur le watercooling, qui équipe une bonne partie de ses datacenters

Rappelons tout de même qu'OVH utilise des systèmes maison de watercooling depuis maintenant 14 ans (voir notre visite du datacenter 4 de Roubaix en 2011), la société ne s'en cache d'ailleurs pas. Et cela ne semble pas poser de problème particulier, hormis celui de la semaine dernière bien évidemment.

« C’est un système qui comporte peu de risques, en comparaison avec une panne de climatisation occasionnant la surchauffe d’une salle et inéluctablement l’arrêt des équipements informatiques » indique d'ailleurs l'hébergeur sur son blog. Il rappelle au passage un incident de 2014 que nous avions également évoqué : de la condensation sur un module de climatisation avait entrainé une panne de deux switchs dans deux baies différentes. Bref, aucun système n'est parfait...

Dans le cas d'OVH, de nombreuses sondes sont installées afin de détecter la présence de liquide dans une baie. En cas d'urgence, ce qui était le cas jeudi dernier, le système MARCEL (Monitoring Audio des Réseaux Composants Équipements et Locaux) s'enclenche : il « permet de diffuser un message audio dans nos datacenters grâce à une voix de synthèse et à des haut-parleurs disposés dans chaque salle » explique la société.

Aphone, MARCEL retarde l'intervention du technicien

Manque de chance, « dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues ». Or, un problème dans cette procédure, réalisée le jour même, a empêché cette alerte de fonctionner.

Conséquence, au lieu d'intervenir immédiatement, le technicien est arrivé dans la salle onze minutes après la détection de la fuite. Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure, privant de bases de données 50 000 sites web, excusez du peu.

EMC n'a pas fait pression sur OVH, sa technologie hors de cause

Autre zone d'ombre que nous avions relevée, et auquel répond OVH dans son billet de blog : la question des baies de stockage d'EMC. Le ticket initial avait été mis à jour par Octave Klaba afin d'ajouter un paragraphe pour blanchir son partenaire et expliquer que « la technologie d'EMC n'est pas à l'origine de l'incident ».

Dans son message initial, le directeur général d'OVH laissait « involontairement penser que la baie présente un défaut dont le constructeur pourrait être tenu responsable. Constatant l’interprétation faite de son message, il se ravise et modifie la tâche travaux pour mettre hors de cause le constructeur ». Le problème étant qu'aucun indicateur ne permet de savoir qu'une mise à jour a été faite ou non, ni la nature des modifications apportées.

Sur son blog, OVH ajoute que le fait de disculper EMC ne fait suite à aucune demande ou pression de la part de son partenaire. Pour rappel, EMC nous avait fait une déclaration similaire lundi matin.

Bientôt une équipe dédiée à la communication en cas de crise

OVH prend note de ces problématiques liées à la communication et annonce qu'il mettra en place une équipe spécialisée pour « délivrer aux utilisateurs une information dont la qualité est adaptée à ce type de situation ». Elle doit non seulement être transparente, mais aussi cohérente affirme l'hébergeur. Espérons que la cohérence ne vienne pas empiéter sur la transparence.

Dans tous les cas, on ne peut pas reprocher à OVH d'avoir voulu étouffer l'incident, les tickets d'incidents étant régulièrement mis à jour par ses équipes sur l'avancement de l'enquête et des procédures mises en place. Par contre, on regrette qu'il n'ait pas souhaité nous préciser pourquoi les billets avaient été mis à jour lorsque nous l'avions contacté lundi matin.

Deux mois offerts pour les clients, les données de la baie EMC irrécupérables

Concernant les données sur la baie de stockage EMC qui ne voulait plus démarrer, OVH a une mauvaise nouvelle (comme on pouvait s'y attendre) : « nous constatons qu’il n’est pas possible de la remettre en fonctionnement, ceci malgré toutes les actions entreprises avec les équipes support constructeur ».

La sauvegarde remise en circulation reste donc en place, ce qui entraine une perte de données sur une période allant de 1h à 22h avant l'incident. La société en profite pour donner quelques précisions : il s’agissait « d’une sauvegarde d’infrastructure globale », réalisée dans le cadre d'un plan de reprise d’activité et non des snapshots des bases de données accessibles aux clients. « Restaurer les données ne signifie pas seulement migrer les données de backup depuis un stockage à froid vers un espace libre de la plateforme technique de l’hébergement mutualisé. Il s’agit de recréer l’ensemble de l’environnement de production ».

Petite consolation pour les clients touchés, OVH va mettre en place un geste commercial : « prolonger gracieusement l’offre d’hébergement web des utilisateurs concernés de deux mois ». Les modalités seront dévoilées dans les prochains jours. 

Enfin, il est question d'une refonte des offres d’hébergement web : « nous envisageons ainsi d’apporter, à ceux qui en ont l’utilité, des garanties supplémentaires aux clients, justifiant par exemple l’existence d’un SLA contractuel ». Tous les détails seront communiqués ultérieurement.

33 commentaires
Avatar de chantoine Abonné
Avatar de chantoinechantoine- 07/07/17 à 16:09:02

J'ai eu une panne sur un de mes VPS chez eux entre le 4/7 18h et le 5/7 13h environ. Ça fait long...

Mon service a été prolongé de 3 semaines, après réclamation (j'aurais peut-être obtenu la même chose sans réclamer ceci dit).

Ce que je reproche c'est une communication défaillante ou en tout cas peu réactive : dans la tâche travaux, mon VPS n'était pas mentionné au départ et pendant de longues heures (ce qui met le doute pour rien), et ce n'est qu'une fois avoir ouvert un ticket que la tâche travaux a été mise à jour avec l'identifiant de mon VPS ajouté à la longue liste.

 Le support a été "assez" réactif sur mon ticket, pour OVH en tout cas (pas mal d'heures pour répondre), mais globalement ça reste décevant.

Du coup j'ai pris un VPS ailleurs, et j'en laisserai tomber un chez OVH à l'échéance. Plus cher, mais avec une assistance hyper réactive.

Avatar de Nico4271 INpactien
Avatar de Nico4271Nico4271- 07/07/17 à 16:29:45

OVH a passé certains serveurs en paiement mensuel à du paiement annuel sans prévenir les propriétaires et du coup si ils ne payaient pas 12 mois d'un seul coup, ils étaient coupés.
ça s'appelle du Racket.
 

Avatar de 127.0.0.1 INpactien
Avatar de 127.0.0.1127.0.0.1- 07/07/17 à 16:37:10

Bref, un enchevêtrement de « petites » causes qui ont conduit à une panne d'envergure

Me semble bien avoir vu un truc comme ca dans "Destination finale"...

Avatar de gloutch INpactien
Avatar de gloutchgloutch- 07/07/17 à 16:40:55

J'adore cette série de films, une vrai publicité contre les accidents domestiques...

Avatar de Ricard INpactien
Avatar de RicardRicard- 07/07/17 à 16:51:37

une fuite de liquide de refroidissement entraîne la présence de fluide dans l’une des deux baies de stockage propriétaires

Fallait utiliser une baie de stockage sous GPL.:fumer:

dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour

Y a plus qu'a se relever les manches... :transpi:

Il s’agit de recréer l’ensemble de l’environnement de production

Je souhaite un bon WE aux techniciens.:francais:

Avatar de NSACloudBackup INpactien
Avatar de NSACloudBackupNSACloudBackup- 07/07/17 à 17:11:09

Ce n'est pas du racket puisque la somme demandé est due... Cela-dit ce n'est pas très correcte non plus.

Édité par NSACloudBackup le 07/07/2017 à 17:11
Avatar de JoePike INpactien
Avatar de JoePikeJoePike- 07/07/17 à 17:29:36

Ya pire :mad2:
Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l'échangeur d'un 3084 IBM à refroidissement par eau.
La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.
Sauf que ...
Un mec ( un stagiaire sûrement) avait stocké les bidons d'acide des batteries d'UPS dans la salle de refroidissement et avait stocké l'eau déminéralisée dans la salle des batteries... mêmes bidons.
Ben quand il a posé le bidon par terre il s'en est aperçu ! à l'odeur !
trop tard! les pompes marchaient à merveille
en fait ils ont fini par remplacer la bécane en entier ( la taille d'un terrain de tennis :ouioui: )
ça se passait en Allemagne
:mdr:

souvenirs souvenirs

Avatar de SebGF Abonné
Avatar de SebGFSebGF- 07/07/17 à 19:05:22

Ricard a écrit :

dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système (Marcel) de monitoring audio était en cours de mise à jour

Y a plus qu'a se relever les manches... :transpi:

Y'a pas de manches sur un Marcel.

Édité par SebGF le 07/07/2017 à 19:05
Avatar de Ricard INpactien
Avatar de RicardRicard- 07/07/17 à 19:09:55

SebGF a écrit :

Y'a pas de manches sur un Marcel.

Ben oui, justement. :D

Avatar de linkin623 INpactien
Avatar de linkin623linkin623- 07/07/17 à 20:22:00

JoePike a écrit :

Ya pire :mad2:
Pendant une maintenance de routine dans les années 80 un technicien avait refait le niveau dans la cuve de l'échangeur d'un 3084 IBM à refroidissement par eau.
La cuve étant à environ 2 m de hauteur et il avait rempli avec un bidon qui était stocké à côté.
Sauf que ...
Un mec ( un stagiaire sûrement) avait stocké les bidons d'acide des batteries d'UPS dans la salle de refroidissement et avait stocké l'eau déminéralisée dans la salle des batteries... mêmes bidons.
Ben quand il a posé le bidon par terre il s'en est aperçu ! à l'odeur !
trop tard! les pompes marchaient à merveille
en fait ils ont fini par remplacer la bécane en entier ( la taille d'un terrain de tennis :ouioui: )
ça se passait en Allemagne
:mdr:

souvenirs souvenirs

:eeek2::eeek2::eeek2:

Il n'est plus possible de commenter cette actualité.
Page 1 / 4