Panne des sites de presse français : que s’est-il passé chez Oxalide ?

Jean Kévin a encore frappé ! 63
Accès libre
image dediée
Crédits : Shock/iStock/Thinkstock
Services
Par
le mardi 20 janvier 2015 à 12:03
Guénaël Pépin

Vendredi dernier, les sites d’une partie de la presse française ont été indisponibles pendant plusieurs heures. Au cœur de cette panne qui a rapidement pris une ampleur importante : Oxalide. L’hébergeur gère en effet de très nombreux sites français, dont plusieurs grands médias. Si l’entreprise a écarté la piste d’une attaque extérieure, elle n’a laissé filtrer que peu de détails sur ce qu'il s’est passé. Nous avons voulu en savoir plus.

France Info, Le Parisien, L’Express, 20minutes, Marianne, Slate, Mediapart, Gamekult, ZDNet, mais aussi Alinea ou Sushi Shop. Voilà une partie des victimes de la panne qui a touché le réseau de l’hébergeur Oxalide vendredi 16 janvier, laissant leurs sites hors-ligne toute la matinée. « Le 16 janvier à 10h, l’infrastructure de cœur de réseau a subi des dysfonctionnements qui ont impacté l’intégralité de nos clients pendant 90 minutes. […] La totalité des sites et services hébergés par Oxalide était de nouveau disponible à midi » expliquait l'hébergeur dans un billet de blog publié le jour-même.

Avec la vague de défigurations de sites qui a eu lieu sur le web français quelques jours plus tôt, beaucoup ont craint qu’Oxalide ait été victime d’une attaque extérieure. Certains avançant même leurs propres explications de l’incident. « Envisagée dans un premier temps, du fait de l’actualité, une attaque de type DDoS, rapidement identifiable, a pu être écartée » répond l’hébergeur. Le problème vient bien de son propre réseau.

Que s’est-il passé ?

« À 9h30, on a commencé à avoir les premiers cris dans la rédaction, ce qui est souvent un premier symptôme ! » nous explique Didier Cros, directeur des opérations au Parisien. Le site est ensuite redevenu accessible à 12h15. « On a à peu près eu 2h30 de déconnexion. C’est beaucoup trop long, et très, très dur pour un site d’info. Surtout dans une période aussi chargée en termes d'actualité. Techniquement parlant, c'est plutôt une belle réaction » estime-t-il.

Concrètement, le réseau d’Oxalide a simplement disparu d’Internet, comme l’explique en détail le spécialiste Stéphane Bortzmeyer sur son blog. Dans les faits, les routeurs d’Oxalide ont arrêté d’annoncer les bonnes routes vers les serveurs où sont hébergés les sites peu avant 9h. Une fois ces routes perdues, le réseau est hors du Net. Les routeurs tentent à la chaine des routes connues, avant de se résigner. Les bonnes routes sont ré-annoncées par les équipements d’Oxalide vers 10h20, pour 1h30 de déconnexion. « Il n'y avait plus d'annonce BGP durant l'incident » confirme un client de l’hébergeur, qui a obtenu les mêmes données.

Cette version est également confirmée par le spécialiste des datacenters Zayo (ex-Neotelecoms), qui héberge des serveurs d’Oxalide. « Ce sont les routeurs d’Oxalide qui ont été touchés, alors que les routeurs de nos autres clients ont continué à fonctionner normalement », expliquait ainsi la société à ZDNet vendredi.

À l’origine de l’incident, une erreur. « Un câble branché là où il ne fallait pas » nous explique un client de l’hébergeur, sur la foi du rapport d’incident. « Oxalide confirme l’erreur humaine. Une erreur de brassage (de connexion des câbles réseau aux routeurs) qui a généré un broadcast storm, une ‘tempête de réseau’. La mauvaise connexion envoie des infos qui n’ont pas lieu d’être sur des équipements qui les renvoient vers d’autres, jusqu’à saturer le réseau » affirme-t-il. Ce déroulement nous a été confirmé par un second client.

La panne a touché le réseau d’administration, qui permet à Oxalide de gérer sa plateforme. L’hébergeur était ainsi coupé de sa propre plateforme. « Ils ont éteint le réseau d’administration » qui commande entre autres l’envoi des routes jusqu’aux serveurs hébergeant les clients, nous explique-t-on encore.

Même si l’accès était restauré vendredi après-midi, il était encore instable pour certains clients. Le groupe CUP Interactive (ZDNet, Cnet, Gamekult) a par exemple eu des difficultés avec son CMS (interface de gestion de contenus) même une fois les sites rétablis. Les clients d’Oxalide étaient accessibles via « des solutions de contournement », selon l’hébergeur qui travaillait à régler le problème et rétablir un accès pérenne.

Des instabilités ont également été notées chez d’autres clients durant l’après-midi. L'hébergeur a ainsi dû identifier le problème le matin et annoncer de nouvelles routes, et ce, sans son système d'administration.

« Je ne leur retire pas ma confiance »

Une question se pose alors : pourquoi autant de sites de presse sont-ils chez Oxalide, au risque de voir une grande partie des sources d'informations françaises disparaître du web en cas de problème ? « Parce qu’ils correspondent à ce que tout le monde cherche : de l’infogérance pendant que les équipes des sites diminuent. Ce ne sont pas les moins chers, on est loin du low cost. Ce serait une erreur de croire que tout le monde y est pour le prix » affirme Emmanuel Parody, directeur des rédactions de CUP Interactive. Lorsqu’ils ont quitté le groupe CBS début 2014, les sites qu’il dirige ont dû entièrement migrer vers une nouvelle plateforme, ce qu’Oxalide aurait selon lui bien géré.

Pour lui, le succès d’Oxalide tient à un bon bouche à oreille entre responsables techniques qui ont besoin de soutenir de fortes montées en charge. Un contrat qui a été en partie rompu vendredi. « On est tous refroidis, mais ils ont géré les choses en toute transparence. Je ne leur retire pas ma confiance » assure-t-il. « L’incident de vendredi ne changera rien. Le zéro défaut n’existe pas. Ils ont eu une gestion de la crise très propre par rapport à ce que j’ai vu ailleurs » appuie Didier Cros du Parisien, qu'Oxalide a appelé à plusieurs reprises dans la journée.

Ce n’est pourtant pas l’avis d’autres clients, pour qui il s’agit du problème de trop. « La confiance que nous avions dans cet hébergeur a été plusieurs fois mise à mal et cette fois, ce sera sûrement la dernière » nous affirme l’un d’eux. Pour se prémunir d’une redite, l’hébergeur met en place des barrières pour empêcher une prochaine « tempête de réseau » de prendre une telle ampleur. « C’est comme ça qu’on apprend. C’est surprenant parce qu’on a des solutions technologiques qui nous prémunissent de ces problèmes, alors qu’on reste à la merci d’un simple câble ! » philosophe l'un des clients interrogés.


chargement
Chargement des commentaires...