Une donnée informatique, ça brûle

Retour de flamme assuré ?

Une donnée informatique, ça brûle

Une donnée informatique, ça brûle

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Le 10 mars dernier, plusieurs datacenters d'OVHcloud prenaient feu à Strasbourg. Si l'incident a rapidement été maitrisé, les dégâts ont été importants, tout comme les conséquences pour les clients. Alors que la société tire les premiers enseignements, retour sur quelques fondamentaux de la protection des données.

Hier, Octave Klaba et Michel Paulin prenaient la parole pour faire le point 50 jours après « l'incident à SBG », pendant lequel plusieurs datacenters de l'hébergeur ont été dégradés ou détruits. L'enquête judiciaire, qui doit déterminer les causes et responsabilités de l'incendie, est toujours en cours.

Incendie de Strasbourg : OVHcloud veut devenir « hyper-résilient »

Désormais, 118 000 des 120 000 services touchés ont été restaurés, une page dédiée étant régulièrement mise à jour pour faire le point sur la situation. Une FAQ est aussi disponible. L'entreprise passe désormais à la phase des gestes commerciaux, des remises ou remboursements devant être envoyés aux clients concernés d'ici peu.

Les deux dirigeants évoquent au passage l'équipe de support renforcée ou celle mise en place spécifiquement pour répondre sur les réseaux sociaux. Les 15 000 serveurs fabriqués en urgence dans l'usine de Croix, les 200 personnes qui ont été mobilisées sur le site (elles sont une centaine désormais). Il faut maintenant préparer la suite.

Et cela tient en un mot : « hyper résilience ». Avec l'incident de Strasbourg, la stratégie de sauvegarde mise en place a en effet montré ses limites. Il faut donc désormais rassurer sur ce point. Une « mini-région » située dans une nouvelle zone géographique non précisée va ainsi être construite, composée de quatre datacenters, devant assurer toutes les sauvegardes internes, mais aussi être mise à disposition des clients, sans surcoût.

Klaba parle ainsi de sauvegardes « gratuites » (sans plus de précisions), ajoutant qu'OVHcloud veut devenir « un expert de la protection de données », ouvert à toutes les solutions du marché. Plusieurs dizaines de millions d'euros sont investis dans ce sens, l'entreprise promettant aussi de revoir la conception de ses datacenters.

Cela concernera les nouveaux bien entendu, mais aussi les actuels qui doivent être mis à jour en conséquence. Enfin, une région située dans la couronne de Paris va être créée, composée de trois datacenters éloignés de 10 à 30 km chacun, avec une réplication constante. Un standard du genre, que la société semble vouloir systématiser.

Protection des données, sécurité : trop souvent délaissés

Si les choses avancent dans le bon sens, cela nous rappelle qu'à force de dématérialiser, certains ont oublié que l’informatique, même lorsqu'elle est vendue à travers le concept de « cloud », repose sur du matériel physique. En gestion de risques, l’information est un « actif primordial » s’appuyant sur un « actif support » (matériel, logiciel, etc.). Le stockage et le transfert de l’information utilisent du matériel qui peut brûler, être dégradé, volé, corrompu, saisi, etc. Il doit donc être protégé, car il est sensible aux sinistres en tout genre.

Notre dossier sur la protection des données en datacenter :

  • Une donnée informatique, ça brûle
  • Datacenter et incendie : règles à suivre, normes et assurances (à venir)

La sécurité informatique est mal-aimée en informatique : trop souvent mise de côté, on ne se rend compte de son importance que lorsqu’on subit une attaque majeure telle qu’un ransomware virulent. Quant à la sécurité physique, elle fait figure de mal-aimée de la sécurité informatique, encore plus souvent négligée, et lorsqu’elle est prise en compte, cela se fait à reculons. Or le vol de disque dur ou l’explosion d’alimentation électrique ne datent pas d’hier.

Quand on a la responsabilité d’applications informatiques, on est tenu de prendre les mesures appropriées pour assurer une qualité de service compatible avec les exigences du métier : seul le propriétaire du business peut déterminer ce qu’il est important de sauver ou la durée d’indisponibilité acceptable.

Une fois cela défini et connu, il faut faire les choix d’architecture (informatique) et de fournisseurs adaptés, avec une gestion des risques rigoureuse. Par exemple, si notre application est critique, il ne faut pas mettre tous ses œufs dans le même panier et la perte d’un datacenter est un scénario à envisager et à anticiper.

Si vous avez attendu d'être touché par un cas comme celui d’OVHcloud pour vous poser la question de la protection de vos données, il est trop tard. Si des sauvegardes sont prévues avec votre hébergement, il aurait été judicieux de vérifier par avance qu’elles ne sont pas sur le même site géographique, car les offres basiques des fournisseurs en ce domaine se limitent souvent à un espace FTP dont on ne connaît pas la localisation.

Mais surtout, c'est à vous de les (faire) réaliser au bon moment et au bon endroit. On répètera encore les règles de base, sans oublier qu’une sauvegarde n’est réussie que lorsque la restauration a fonctionné correctement ! Pensez donc également à les vérifier régulièrement, en simulant des scénarios catastrophes par exemple.

L'importance de connaître ce que l'on achète

L'un des points « positifs » de l'incendie d'OVHcloud à Strasbourg est donc qu'il incite les acteurs, impactés ou non par le problème, à se poser la question de la manière dont leurs données sont protégées. Et à faire le point sur les pratiques en la matière, notamment chez les hébergeurs qui communiquent plus ouvertement. 

L'autre géant français de l'hébergement, Scaleway, a notamment détaillé ce qu'il mettait en œuvre, revenant par la suite sur les raisons qui ont motivé certains de ses choix. On pense notamment à la redondance à travers les différentes zones de disponibilité d'une région, au nombre de trois dans l'idéal, mais ce n'est pas toujours le cas.

Comme le rappelle Arnaud de Bermingham dans ce billet de blog, les datacenters (DC) sont un lieu physique où se trouvent les équipements (serveurs, connexions, alimentation électrique, refroidissement). Il s'agit de l'une « des localisations physiques d’une zone de disponibilité ». Ces dernières, nommées AZ, se composent d’un ou plusieurs datacenters « situés dans une zone géographique d'environ 5 km avec une latence interne maximale de 1.4 ms et à minimum 50 km d’une autre zone de disponibilité de la même région ».

Scaleway donne l'exemple de fr-par-1 « constituée des datacenters DC2 et de DC3 et la zone de disponibilité fr-par-2 est constituée du datacenter DC5 ». fr-par-3 arrivera « prochainement » reposant sur le prochain datacenter DC4.

Enfin, les régions regroupent plusieurs AZ avec un réseau « unique qui est dissocié (non interconnecté) des autres régions ». La filiale d'Iliad compte trois régions : Amsterdam, Paris et Varsovie. Exception pour la première : son réseau n'est pas dissocié « pour des raisons historiques est aussi un lieu de peering pour la région Paris ».

Si « le design cloud public idéal s’appuie généralement sur trois zones de disponibilité dans une même région » (dans un rayon de 200 km) ce n'est pas toujours le cas et c'est à prendre en compte : 

« Ceci n’a aucun impact sur les produits IaaS. Pour les produits PaaS, le niveau de disponibilité et la résistance à un sinistre ainsi obtenu ne sont pas aussi optimaux qu’avec un design à trois zones de disponibilité. Ce point a été identifié depuis longtemps mais nous avons toujours refusé catégoriquement le compromis qui consiste à avoir plusieurs zones de disponibilité, cluster ou datacenter virtuel dans le même datacenter physique.

Pour éviter d’induire nos clients en erreur, nous leur recommandons systématiquement de construire leurs infrastructures sur plusieurs régions, ce qui est la solution la plus élégante pour avoir un service redondé et haute disponibilité.

Les investissements sont déjà validés depuis le début d’année, avec l’ouverture en 2021, de trois nouvelles zones de disponibilité additionnelles sur nos trois régions actuelles. Notre stack logicielle PaaS est conçue dans cette optique et sera redéployée en conséquence d’ici la fin d'année. »

Un discours qui montre bien que derrière la simplicité du « tout Cloud », la réalité est plus complexe. Les clients se doivent donc de comprendre ce qu'ils achètent. On regrette d'ailleurs que les obligations légales en matière d'information à ce sujet ne soient pas plus strictes. Une problématique qui ne touche pas qu'à la question de la protection des données d'ailleurs, comme on le voit régulièrement avec les vCPU et l'overprovisionning.

Qui est responsable de quoi ?

En cas de sinistre se pose la question de la responsabilité. Ici, tout dépend du contrat, et là encore il vaut mieux le lire dans son ensemble, petites lignes comprises, avant qu’il ne soit trop tard. 

En ce qui concerne les sauvegardes et les mesures liées à la continuité et la reprise d’activité, on a rarement affaire à des paragraphes cachés et écrits en tout petit : ce sont des points mis en avant, bien en évidence, car ce sont d’excellents arguments marketing. Il est toutefois rare qu’un fournisseur assure 100 % de fiabilité.

Et même si c'était le cas, cela ne signifierait pas que le service fonctionnera 100 % du temps : simplement que s’il ne fonctionne pas comme prévu, vous aurez droit à un dédommagement, variable d’un produit à l’autre, et le plus souvent à hauteur du prix du service et non de l’importance du service dans votre business. 

La nuance est d’importance : si vous générez 10 000 euros de chiffre d’affaires avec une infrastructure à 100 euros par mois, et que le service est indisponible durant 3 jours au-delà de ce qui est garanti, alors vous aurez droit à 10 euros (3 jours de service). Ceux qui sont surpris des montants de dédommagement face à tout un business arrêté sont ceux qui n’ont pas lu le contrat ni compris la répartition des responsabilités.

Si l’offre concerne de l’infrastructure (serveur dédié principalement), le client a généralement la charge de son exploitation. À lui donc de s’assurer des sauvegardes, transferts, de la répartition géographique de ses machines, et du redéploiement de son infrastructure en cas de sinistre. Si l’offre concerne un produit ou un service (PaaS, SaaS, hébergement mutualisé, VPS, instance cloud), le fournisseur peut s’occuper de la redondance, de la duplication, mais ça n’est pas systématique et c’est toujours plus cher.

Les fournisseurs les plus matures vous proposent plusieurs zones géographiques avec chacune plusieurs datacenters, le tout plus ou moins bien relié. En cas de destruction de l’un d’eux, on peut toujours se rabattre sur un autre datacenter ou sur une autre zone géographique assez facilement.

Selon le contrat, ça sera au client ou au fournisseur de mettre en œuvre le plan de continuité d’activité (PCA), mais une bonne architecture prévoit un déploiement sur plusieurs sites : au minimum un site de production et un site séparé de sauvegarde, mais on peut prévoir plusieurs sites sur une même zone géographique, dupliquer les zones géographiques, etc. Plus il y a de briques similaires, remplissant le même rôle, mais suffisamment indépendantes les unes des autres, plus on peut espérer s’approcher d’une disponibilité à 100 %.

L’infogérance est une forme de sous-traitance qui peut prendre en charge cette partie, mais dans ce cas vous laissez les clés de votre infrastructure à un tiers. Vous pouvez accepter un tel risque... ou pas.

Commentaires (15)


Excellente communication d’OVH.
Leur projet hyper-résilience lancé en 2019 va commencer son déploiement en production cet été dans 4 datacenters indépendants.
Il est heureux qu’Octave Klaba est lui même lancé ce projet se sachant vulnérable sur ce point, et dommage qu’il ne soit pas arrivé avant l’incident de Strasbourg.
De plus, il font d’une pierre 2 coups en proposant une offre compétitive face à Glacier, bref du tout bon.



PS: Pour Jean, la mini région évoqué est la France pour les 4 mini-DC qui seront tous dans l’hexagone ^^


Très juste de préciser que les SLA donne droit à un dédommagement souvent ridicule… Choisir son prestataire avec soin plutôt que sur le marketing.


Data Center en bois… et sans extinction… Dur de faire plus lowcost


le plancher était en bois, pas les structures primaires.
Photo de la construction de SGB2


smileyn

le plancher était en bois, pas les structures primaires.
Photo de la construction de SGB2


Lors d’un incendie, ce sont souvent les fumées très chaudes qui propagent le feu, c’est pourquoi il faut toujours fermer les fenêtres et portes avant de quitter un bâtiment à cause d’une alarme incendie (merci les formations incendie au taf)



Sur la photo on voit les aérations du datacenter et il ne semble pas y avoir de système de fermeture, si c’est bien le cas c’est ça qui a causé la propagation très rapide de l’incendie qui est devenu incontrôlable en quelques minutes.


Et j’aimerais bien avoir vos sources selon lesquels il n’y avait pas de système d’extinction incendie.
Il est fortement improbable (impossible ?) d’obtenir un agrément d’opération en France si votre bâtiment ne répond pas à certains requis de sécurité.
Il est possible qu’il n’y ai pas de système d’extinction, mais il n’y a qu’au cinéma qu’un réseau de sprinkler éteint efficacement un incendie.
Les systèmes d’extinction sont surtout là pour permettre de diminuer l’impact, assurer l’intégrité des systèmes de contrôle le plus longtemps possible et permettre l’évacuation des équipes en attendant l’intervention des pompiers.


smileyn

Et j’aimerais bien avoir vos sources selon lesquels il n’y avait pas de système d’extinction incendie.
Il est fortement improbable (impossible ?) d’obtenir un agrément d’opération en France si votre bâtiment ne répond pas à certains requis de sécurité.
Il est possible qu’il n’y ai pas de système d’extinction, mais il n’y a qu’au cinéma qu’un réseau de sprinkler éteint efficacement un incendie.
Les systèmes d’extinction sont surtout là pour permettre de diminuer l’impact, assurer l’intégrité des systèmes de contrôle le plus longtemps possible et permettre l’évacuation des équipes en attendant l’intervention des pompiers.


On en parlera dans la 2e partie de l’article normalement !


Bravo pour cet article qui arrive à expliquer un des enjeux de l’architecte cloud. Comme vous dites, on ne passe pas au cloud sans savoir ce qu’on fait ! La duplication des données et la présence d’un recovery plan est souvent délaissé par les clients car évidemment il est nécessaire de passer à la caisse… Pour des petites entreprises, cela peut parfois être catastrophique.



J’imagine qu’il existait déjà des solutions chez OVH à ce sujet (je ne connais pas suffisamment ce provider pour émettre un avis) mais tout ça est une bonne nouvelle. Beaucoup de clients français restent frileux à monter leur architecture chez Azure ou AWS, et OVH restera une belle option (est-ce qu’il existe un article sur le CloudAct chez NextImpact d’ailleurs ? Si non ça ferait un super sujet ^^).


Très bel article ! Bravo et bienvenue, Jean 👍


Pour ceux que ça intéresse, nous [=Cozy Cloud] avons rédigé notre analyse de risque suite à cet accident.
Faut-il quitter OVH ?
Forcément, nous y avons perdus 42 serveurs, donc meme si au final on s’en sort bien, ça motive à se poser la question de la stratégie à adopter…
C’était l’occasion de refaire un peu de proba, du genre “fréquence moyenne d’un double incendie de datacenter à moins de x jours d’intervale” :-)


“Ceux qui sont surpris des montants de dédommagement face à tout un business arrêté sont ceux qui n’ont pas lu le contrat ni compris la répartition des responsabilités.”
Ben voyons.


Ben oui, c’est exact, et bien vu. J’ajoute que les gens qui croient qu’avec un VPS à 10 € par mois, ils vont avoir un service premium se font de sérieuses illusions.



smileyn a dit:


Et j’aimerais bien avoir vos sources selon lesquels il n’y avait pas de système d’extinction incendie. Il est fortement improbable (impossible ?) d’obtenir un agrément d’opération en France si votre bâtiment ne répond pas à certains requis de sécurité. Il est possible qu’il n’y ai pas de système d’extinction, mais il n’y a qu’au cinéma qu’un réseau de sprinkler éteint efficacement un incendie. Les systèmes d’extinction sont surtout là pour permettre de diminuer l’impact, assurer l’intégrité des systèmes de contrôle le plus longtemps possible et permettre l’évacuation des équipes en attendant l’intervention des pompiers.



Homere a dit:


Lors d’un incendie, ce sont souvent les fumées très chaudes qui propagent le feu, c’est pourquoi il faut toujours fermer les fenêtres et portes avant de quitter un bâtiment à cause d’une alarme incendie (merci les formations incendie au taf)



Sur la photo on voit les aérations du datacenter et il ne semble pas y avoir de système de fermeture, si c’est bien le cas c’est ça qui a causé la propagation très rapide de l’incendie qui est devenu incontrôlable en quelques minutes.




Cela a été bien discuté dans le topic sur lafibre.info :



Bâtiment ouvert (freecooling un peu sauvage), les plancher en bois ne sont probablement pour rien dans la propagation de l’incendie, des systèmes de détection d’incendie mais pas d’extinction (les employés qui vont sur le lieu de l’alerte et éteignent a l’extincteur), bâtiment en forme de tour carrée creuse (parfait pour la circulation de l’air en refroidissement, mais du coup parfait aussi pour alimenter un foyer en oxygène). Sauf qu’un feu de batterie ou d’onduleur, ça part vite et fort, donc les employés n’ont pu rentrer dans le bâtiment à temps, malgré a priori leur temps de réponse rapide. A rajouter avec la complexité de couper l’alimentation 20kV (située dans SBG2 a priori), les pompiers ont du attendre plus d’une heure pour pouvoir arroser tout ça.



Conclusion, a laquelle sont arrivés plusieurs DC, on ne prends pas de risque et on met tout ce qui est arrivée électrique, production et stockage d’électricité dans des bâtiments externes et pas en dessous des salles serveur.


Petit rappel, comme sur les précédents articles sur le sujet : à moins d’être expert incendie et d’avoir de vraies infos sur le cas qui nous occupe, il est préférable d’éviter toute spéculation/conclusion. L’enquête est en cours, elle dira ce qu’il en est, en se basant sur des faits :chinois:


Merci pour ces infos, bossant dans l’ingénierie de maintenance, le design des systèmes est pas ma spécialité et ça m’intéresse vraiment de me documenter sur le sujet.


Fermer