L'année bissextile a causé une panne de Windows Azure de plus de 12h

Trivial, vous avez dit trivial ? 111
Windows Azure est le nom de l’offre de cloud computing que propose Microsoft à ses clients. Plusieurs briques essentielles permettent le déploiement de sites, de services, d’applications et autres. Mais l’infrastructure a rencontré un problème important qui a provoqué une coupure de service pendant plus de douze heures d’affilée, engendrant la colère de certains clients.

azure

De la panne unique à la propagation

La panne est survenue dans la nuit d’avant-hier à hier. Les problèmes ont ainsi commencé vers 3h00 du matin, heure française. À midi hier, certains soucis avaient été corrigés tandis que d’autres étaient apparus. D’après une capture réalisée à ce moment par ZDnet, c’est le composant « Windows Azure Service Management » qui a causé problème :

azure

Un seul composant en panne pour déclencher finalement des problèmes en pagaille. Le Service Management permet en effet aux clients de gérer les déploiements, les comptes de stockage ou encore les services hébergés dans la partie PaaS (Platform as a Service) de Windows Azure. Sans ce composant, toutes ces opérations étaient bloquées.

Malheureusement pour Microsoft, les choses ont empiré par la suite. L’éditeur a trouvé assez rapidement la racine du problème, mais le déploiement d’une solution a propagé les difficultés à d’autres centres de données et services. Ce fut notamment le cas du composant Compute qui se charge des calculs, aussi bien aux États-Unis qu’en Europe. À ce moment, même des sites, services et applications qui n’avaient pas besoin du Service Management ont commencé à rencontrer des problèmes puis à lâcher. Pourtant, tous les clients n’étaient pas concernés.

À 14h30 hier, Microsoft que « la gestion des services est rétablie pour la majorité des clients. Nous avons encore besoin de travailler sur certains points avant de restaurer complètement ce service ».

Comme l’explique ZDnet UK, une dégradation d’autres services a été en fait observée pendant que Microsoft s’occupait de Windows Azure Compute. Cette fois, les pannes sont apparues un peu partout dans le monde et ont concerné par exemple le Marketplace Datamarket dans le centre des États-Unis, l’Access Control & Caching Portal à l’échelle mondiale ou encore l’Access Control 2.0 en Europe du Nord.

L'année bissextile responsable

Hier, Microsoft s’est également excusé de la gêne occasionnée par une telle panne. Dans un billet sur le blog de Windows Azure, le responsable Bill Laing a indiqué qu’il s’agissait à l’origine d’un bug logiciel. La firme souhaitait rassurer également en précisant que moins de 3,8 % des clients avaient été touchés. Le souci est que cette panne a été causée par les calculs horaires qui n’ont pas été capables de prendre en charge le cas particulier du 29 février 2012, année bissextile.

Aujourd’hui, tous les services sont revenus au vert, excepté le Windows Azure Compute du sud-est des États-Unis :

azure

Cette importante panne rappelle que même si les offres de type Amazon EC2 et Windows Azure sont taillées pour la haute disponibilité (garantie de 99,9 %), ce type de problème peut survenir. Elle rappelle également qu’il s’agit de la principale faiblesse du cloud : la concentration des données les met à la merci d’un problème capable d’affecter des milliers de clients d’une seule traite. En revanche, si l’accès a bien été coupé, aucune perte d’information ne semble être à déplorer.
Publiée le 01/03/2012 à 16:19
Vincent Hermann

Rédacteur/journaliste spécialisé dans le logiciel et en particulier les systèmes d'exploitation. Ne se déplace jamais sans son épée.

Soutenez nos journalistes

Le travail et l'indépendance de la rédaction dépendent avant tout du soutien de nos lecteurs.

Abonnez-vous
À partir de 0,99 €

Publicité