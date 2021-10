« Internet est coupé, je n'ai plus rien qui fonctionne ? » est peut-être une question que vous avez entendue hier soir. En réalité, tous les services Facebook étaient inaccessibles soit le réseau social mais aussi Instagram, Messenger et WhatsApp qui font partie des services les plus utilisés au monde.

Si certains ont pensé à une attaque, il n’en était rien. Il s’agissait bien d’une panne, consécutive au déploiement d’une mise à jour d’entretien pour les routeurs de l’entreprise. Elle était si énorme que même les équipements internes étaient inaccessibles, bloquant notamment les techniciens car leurs badges n’étaient plus validés par les systèmes de sécurité.

Que s’est-il passé ? La mise à jour a entrainé une suppression de toutes les routes BGP (Border Gateway Protocol). Le BGP est au cœur de l’architecture d’Internet, puisque si l’on part du principe qu’il s’agit d’un réseau de réseau, BGP en est la glue : il assure la visibilité entre les éléments. Sans ces routes, les serveurs DNS de l’entreprise ont été rendus inaccessibles et le reste du monde n’a plus su où trouver les services Facebook.

La cascade de problèmes a commencé vers 17h40 (heure française) : les routes BGP disparaissent et les serveurs DNS de Facebook ne répondent plus. Rapidement tout s’enchaine et l’intégralité des services deviennent inaccessibles, quelle que soit la plateforme. Cloudflare, dit s'être aperçu que le résolveur DNS 1.1.1.1 n’arrivait plus à résoudre facebook.com, au point de se demander s'il n'y avait pas un problème de son côté. Les équipes comprennent vite cependant que la panne vient de Facebook.

Cette panne a de multiples conséquences pour d’autres services et infrastructures, dont celles de Cloudflare et de Google. Les DNS maisons, respectivement 1.1.1.1 et 8.8.8.8, enregistrent des pics colossaux de requêtes, les utilisateurs tentant de passer par eux pour accéder aux services Facebook. L’activité est jusqu’à 30 fois supérieure à la normale, avec de nombreux échecs à la clé.

Dans son bilan de l’incident, Cloudflare indique également une hausse conséquente des requêtes vers d’autres services, comme Twitter, Signal ou même TikTok. Signal a confirmé hier soir, tweetant que des millions de personnes avaient fraichement débarqué sur le service, avec quelques soucis à la clé.

Tout a commencé à revenir doucement à l’ordre aux alentours de minuit. Mark Zuckerberg a publié peu de temps après des excuses : « Désolé pour l’interruption, je sais combien vous vous appuyez sur nos services pour rester connectés avec les personnes à qui vous tenez ». Dans un court billet, Facebook confirme que tout est revenu à la normale et renouvelle ses excuses.

La société indique qu’il faudra encore du temps pour analyser les conséquences de cette panne, et s’assurer que les conditions qui l’ont engendrée ne se reproduisent plus. Cette panne a le mérite de remettre un éclairage cru sur Facebook en tant que SPOF (Single Point Of Failure). Non seulement Messenger et WhatsApp sont les deux messageries les plus utilisées au monde, mais de nombreux autres services utilisent ou proposent Connect pour simplifier l’authentification.

Le fait que la disparition d’un acteur unique ait de telles répercussions invite à la réflexion.