Dix jours après la panne nationale sur les numéros d’urgence, Orange dévoile les premières conclusions de son enquête interne, confirmant qu'elle est le fruit d'un bug logiciel. Le FAI livre quelques explications techniques et des recommandations pour éviter qu’une telle situation ne se reproduise.
Le 2 juin au soir, une panne d’envergure nationale est venue perturber « le réseau de téléphonie fixe, dont certains numéros d’urgence ». Le lendemain matin, Gérald Darmanin (ministre de l'Intérieur) qualifiait ce dysfonctionnement de « grave, inédit et inacceptable » lors d’une conférence de presse.
Les résultats de l’enquête interne d’Orange
Une enquête interne était évidemment lancée par Orange, de même qu’un « audit externe » était demandé par Cédric O, avec l’implication « probable » de l’ANSSI. Jeudi 10 juin, à l’occasion de la publication de son rapport d’activité (lire notre analyse), Guillaume Poupard (directeur général de l’Agence), expliquait que, « à 99,9 % c’est une panne ; elle est même identifiée ». Il ajoutait qu’Orange devait remettre aux autorités un rapport le soir même.
C’est finalement hier soir que la société a rendu ses conclusions sur cette crise : le 2 juin, « de 16h45 à minuit, les services voix d’Orange ainsi que l’accès à certains services d’urgence ont été perturbés sur le plan national. Pendant cette période environ 11 800 appels, soit 11 % du total d’appels, n’ont pas été acheminés vers les services d’urgence ». Comme l’expliquait Gérald Darmanin, cela a eu des conséquences tangibles avec au moins trois « faits » graves.
Dysfonctionnement logiciel sur l’interconnexion
L’enquête confirme qu’il s’agit « d’un dysfonctionnement logiciel » et pas d’une cyberattaque, comme cela avait déjà été précisé dès la semaine dernière. Le problème se situait « sur l’interconnexion entre les services voix mobile, voix sur IP d’une part et ceux hébergés sur le réseau commuté (la plupart des numéros d’urgence étant sur cette technologie) d’autre part, suite à une opération de modernisation et d’augmentation capacitaire du réseau, débutée début mai, pour répondre à l’accroissement du trafic ».
Orange donne quelques détails :
« L’interconnexion repose sur une plateforme de calls servers. Un dysfonctionnement de la plateforme de service est intervenu et a provoqué les perturbations. Ce dysfonctionnement est la conséquence d’un bug dans les logiciels des calls servers.
Ce bug s’est activé suite à des commandes usuelles de reconnexion, perturbant le fonctionnement global des calls servers malgré leur redondance entre les six sites distincts. Cette défaillance logicielle est désormais identifiée par le partenaire fournisseur des équipements concernés et un correctif a été adressé ».
Une panne « complexe », une cellule de crise en retard
La société affirme avoir détecté l’incident « immédiatement, grâce aux systèmes d’alerte internes ». Des contre-mesures ont rapidement été mises en place, mais elles « n’ont malheureusement pas permis de rétablir immédiatement le service ». Orange tente une justification en expliquant que « la complexité de la panne, la variété des technologies et des architectures réseau des services d’urgence ont retardé le diagnostic ».
L’enquête pointe du doigt un autre problème interne : « le retard dans l’activation de la cellule de crise managériale a entrainé une communication tardive vers toutes les parties prenantes ». Une recommandation est donc de « réduire de deux heures à 30 minutes maximum le délai de déclenchement d’une cellule de crise, en cas de perturbation touchant les appels aux services d’urgence et services vitaux au niveau national ».
Les autres recommandations sont les suivantes :
- Renforcer la supervision de bout en bout des services vitaux et des numéros d’urgence.
- Accompagner les services de l’État dans l’accélération de la migration vers la technologie IP des centres d’appel des services publics et des entreprises en RTC, pour renforcer la résilience de ces équipements.
- Proposer de mettre en place un numéro dédié, disponible 24h sur 24h et 7 jours sur 7, pour les parties prenantes (services de l’État, CHU, SAMU…) en cas de dysfonctionnement sur les numéros d’urgence.
- Proposer l’utilisation, en concertation avec chaque acteur concerné, d’un mécanisme de diffusion massive par SMS de consignes d’usage en cas de panne affectant les services d’urgence.
- Poursuivre une analyse comparative de l’événement avec des incidents similaires intervenus dans d’autres pays européens comme en Allemagne, au Royaume-Uni, en Belgique ou encore aux États-Unis.
Stéphane Richard veut une cellule « au niveau mondial »
Stéphane Richard compte profiter de sa position de président de la GSMA pour proposer la mise en place, au niveau mondial, « d’une cellule chargée de répertorier et analyser les dysfonctionnements réseau sensibles afin de partager les retours d’expérience entre opérateurs ». Espérons que ces comptes rendus seront publics pour que tout le monde puisse en profiter et pour éviter que certaines informations ne passent sous les radars.
Enfin, Orange « poursuit ses investigations en lien avec les services de l’État pour renforcer les enseignements de cette crise et participera notamment aux travaux de l’ANSSI ». Il faudra maintenant attendre de voir si l’audit externe (attendu pour fin juillet) confirmera les conclusions d’Orange et/ou s’il formulera d’autres recommandations.