Une panne entre Orange et Level 3 a affecté l'accès à certains sites, le problème est réglé

Une panne entre Orange et Level 3 a affecté l’accès à certains sites, le problème est réglé

Down with the sickness

Avatar de l'auteur
Guénaël Pépin

Publié dans

Internet

15/11/2017 2 minutes
42

Une panne entre Orange et Level 3 a affecté l'accès à certains sites, le problème est réglé

Ce matin, l'interconnexion entre l'opérateur de transit Level 3 et OpenTransit, dont dépend pour bonne part Orange France, aurait subit « un incident BGP ». L'opérateur de transit Level 3 n'est plus en mesure d'envoyer son trafic vers le FAI. Désormais, tout est rentré dans l'ordre.

Dès 8h20, des clients d'Orange se sont plaints de difficultés à accéder à certains sites, notamment outre-Atlantique. Selon nos informations, il s'agissait d'un incident BGP entre Level 3 (AS3356) et OpenTransit (AS5511), le transitaire international d'Orange France (AS3215). Dans la matinée, certains évoquaient un problème avec un routeur chez un prestataire tiers.

Le trafic descendant vers OpenTransit aurait donc été coupé. Le FAI, qui en est dépendant, avait ainsi des difficultés à recevoir le trafic passant par l'opérateur de transit américain. Sur Twitter, un spécialiste recommande de contourner OpenTransit pour rétablir l'accès d'un site aux clients Orange.

Après plusieurs remontées sur Twitter, transmises au service d'enquête, le compte Twitter Orange Conseil a confirmé la nature des soucis peu après midi. « Nos clients ont pu rencontrer depuis ce matin des difficultés pour se connecter à certains sites internet. Toutes nos équipes étaient mobilisées pour rétablir rapidement le service. Le service est désormais rétabli » vient de nous répondre officiellement le service presse de l'opérateur historique. 

Une surveillance va être mise en place pour la journée afin de vérifier que tout va bien.

42

Écrit par Guénaël Pépin

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Commentaires (42)


Impossible de joindre les sites de Radio France ce matin, c’était peut-être dû à ça !


Effectivement, j’avais constaté des problème sur plusieurs sites, mais je n’ai pas eu le réflexe Twitter, donc je me demandais si c’était mon téléphone ou…


En réponse au sous-titre, “Oh, ah, ah, ah, ah” <img data-src=" />


Ah, ça venais de là. Impossible de me connecter à Les Simpsons : Springfield ce matin via le wifi 😁. Heureusement que je suis chez Bouygues en données mobiles 🙂


Ce serait donc pour ça que https://developer.mozilla.org était inaccessible ce matin :o


Haha, j’ai deviné le sous-titre grâce au commentaire !


On avait plus accès Stackoverflow ! C’est bon on peut recommencer les copié/collé <img data-src=" />


Je confirme, la matinée à été catastrophique, c’est des 10aine de sites donc le mien qui le fonctionnait plus, ou presque plus, le manque de comm est toujours à déplorer dans se genre de situation, il faut toujours attendre des heures et des heures pour avoir une info du pourquoi sa ne marche pas et d’où viens le problème !

J’ai perdu une matinée de prod donc 2h00 a chercher le problème sur mes serveurs dans le vent …


idem, impossible de se connecter sur les sites partenaires XEROX, balot quand tu doit enregistrer des machines.

&nbsp;


Level 3 c’est le groupe du propose des services de CDN ?








Dams20 a écrit :



J’ai perdu une matinée de prod donc 2h00 a chercher le problème sur mes serveurs dans le vent …





2h la demie-journée, ça fait 4 h al journée = 20 h la semaine. Ça va, la vie n’est pat trop dure ? <img data-src=" />



Il travaille peut-être à partir de 10h. 12h pause dej puis grosse AM (je faisais pareil , en finissant à 19h30).


La semaine dernière s’était OVH et là c’est Orange.

[Mode théorie du complot ON]C’est l’installation des boites noirs qui génère des coupures momentané ? [Mode théorie du complot OFF]&nbsp; <img data-src=" />


Ce type de problème de peering est effectivement pénible car c’est la dernière chose à laquelle on pense… Internet marche, le serveur lui même a bien accès à Internet… mais le service n’est pas accessible…&nbsp;<img data-src=" />



Dans le même genre, le peering entre le FAI de notre boite et OVH avait un packet drop de 50% en IPv6 seulement, ce qui causait des soucis en apparence de l’ordre de la magie noire, surtout que chaque logiciel réagit différemment aux problèmes de connectivité IPv6.


Reste à savoir si c’est des “techniciens” Russes, israéliens, chinois, coréens ou americains qui testent l’infrastructure réseau.


il me semblait qu’il y avait un soucis, je suis chez Orange Fibre et impossible d’accéder à iCloud ce matin.



Maintenant tout va bien.


Ce qui est fou c’est de ne pas avoir de message en bandeau sur l’interface livebox, juste pour confirmer le problème technique cote operateur/infrastructure…


AS3356&nbsp;: can you feel that …oh shit&nbsp;








Dams20 a écrit :



Je confirme, la matinée à été catastrophique, c’est des 10aine de sites donc le mien qui le fonctionnait plus, ou presque plus, le manque de comm est toujours à déplorer dans se genre de situation, il faut toujours attendre des heures et des heures pour avoir une info du pourquoi sa ne marche pas et d’où viens le problème !

J’ai perdu une matinée de prod donc 2h00 a chercher le problème sur mes serveurs dans le vent …





Mouais, moi j’ai le problème inverse en général : je suis celui à qui on vient péter les couilles toutes les 5 minutes pour savoir quand le problème sera résolu (parce que franchement tout le monde se fout de savoir d’où il vient, le problème). Ce à quoi j’ai tendance à répondre que déjà quand on arrêtera de m’interrompre toutes les 5 minutes je pourrais continuer à chercher d’où vient le problème et qu’une fois que j’aurais trouvé ce sera probablement résolu en moins de 5 minutes.









trexmaster a écrit :



Mouais, moi j’ai le problème inverse en général : je suis celui à qui on vient péter les couilles toutes les 5 minutes pour savoir quand le problème sera résolu (parce que franchement tout le monde se fout de savoir d’où il vient, le problème). Ce à quoi j’ai tendance à répondre que déjà quand on arrêtera de m’interrompre toutes les 5 minutes je pourrais continuer à chercher d’où vient le problème et qu’une fois que j’aurais trouvé ce sera probablement résolu en moins de 5 minutes.





En même temps, il faut que admettes qu’aujourd’hui, beaucoup d’opérations se font via Internet ou Intranet. Le monde des entreprises mais aussi celui des particuliers ne tourne plus très rond lorsque les réseaux informatiques sont en panne. Notre monde est devenu dépendant des réseaux informatiques et cinq minutes de pannes peuvent paraître une éternité pour une personne qui n’a plus d’accès à Internet/Intranet.



Surtout, pour les entreprises, une panne sur un réseau informatique peut engendre des pertes d’argent substantielles. Ainsi, cette panne entre Orange et Level 3, totalement anodine à première vue, a certainement eu des effets colatéraux qui couteront chers à certaines entreprises.



Enfin, pour finir… si ton boulot est bien celui que je pense, il est normal qu’on t’embête lorsqu’une panne intervient. Tu est là pour réparer… dans les brefs délais. Et comme je l’ai dit plus haut, la dépendance à Internet/Intranet fait que cinq minutes sont déjà trop long pour des professionnels.



C’est courant chez Orange d’avoir des problèmes de transit IP, mais de cette ampleur c’est encore jamais arrivé cette année. J’espère qu’ils ont bien le nez dans leur merde cette fois-ci.

Généralement quand je vois que les requêtes sont anormalement longues vers des sites comme des gros sites étrangers ou que les connexions ssh vers notre infrastructure en Irlande freezent régulièrement par à coup, je sors mtr et ping (ça prend 1 minute) pour vérifier si Orange paume des paquets ip ce qui est généralement le cas.



De plus, j’ai le réflexe twitter et je n’hésite pas à faire de la délation/dénonciation non calomnieuse et véridique en pointant orange si nécessaire.








elezoic a écrit :



C’est courant chez Orange d’avoir des problèmes de transit







Manque de fibres <img data-src=" />



Sauf que le problème est pas chez Orange si tu lisais un peu la news, ils ont autant subi que l’ensemble des abonnés sur ce coup là… mais bon facile de cracher sa bile quand on ne lit pas (ou on ne sait pas lire).

T’as beau avoir la meilleure infra du monde, si c’est le mec en face qui fait de la merde sur ses annonces BGP t’en subis les conséquences, le temps de trouver d’où vient la panne. Ensuite plusieurs choix :




  • tu mets une rustine pour palier le problème ? si tu sais comment faire

  • tu contactes l’AS défaillant et tu pries pour que les mecs trouvent et réparent vite (mais va contacter à 6h00 du matin une entreprise US sur un problème internet inter AS haha)








Bobmoutarde a écrit :



Sauf que le problème est pas chez Orange si tu lisais un peu la news, ils ont autant subi que l’ensemble des abonnés sur ce coup là… mais bon facile de cracher sa bile quand on ne lit pas (ou on ne sait pas lire).







Merci, je sais comment fonctionne le transit IP (Je ne sais pas d’ailleurs pas si tu as les compétences pour comprendre les responsabilités au niveau de la gestion des tuyaux). Quand le presta du transit/peering IP merde, c’est jamais la faute du FAI et pourtant ce sont tous les abonnés qui trinquent dont nos clients qui ont pour FAI orange. Mais c’est beaucoup trop fréquent pour que je leur pardonne, Orange n’a qu’à se bouger le cul pour avoir des liens redondants et stables qui merdent pas dès qu’un presta a un problème.





  • tu mets une rustine pour palier le problème ?



    Je pallie qu problème pour moi-même, par-contre pour les autres… je considère que ce n’est pas mon rôle de pallier à l’incompétence du FAI.



  • tu contactes l’AS défaillant



    Le support Orange ne traite pas les problèmes de peering ça sert à rien de les appeler pour ça. (Une fois on a essayé…) Quand c’est un site comme github qui est impacté par un problème de transit, le plus rapide c’est de gueuler sur les réseaux sociaux.



    Par exemple, lors du déménagement du data center chaos de square-enix à Francfort, pendant environ 2 semaines on avait du packet loss. Orange était au courant, les gens du data center aussi, mais ça a mit plus d’une semaine pour résoudre un simple problème de dimensionnement de transit IP. Il suffisait d’être chez un autre FAI ou de router ses trames hors du réseau d’orange pour les faire arriver par un autre chemin, pour ne pas être impacter par le problème.



Pour être plus clair c’est Orange qui paye le prestataire pour faire transiter son traffic, donc c’est Orange qui doit fouetter son prestataire lorsque ça fonctionne pas/mal. C’est pas à l’abonné orange de s’occuper de ce qui se passe entre le destinataire et la livebox. Au pire , Orange n’a qu’à virer ses prestataires et demander à Free/Bouygues & cie comment ils font. Bon après peut-être que l’herbe n’est pas aussi verte ailleurs mais elle ne l’est définitivement pas chez l’agrume. (en tout cas pas pour l’année 2017)



C’est comme la poste, ce n’est pas au destinataire du colis de déclarer un colis perdu car ce n’est légalement pas le client, c’est à celui qui a envoyé le colis et payé les frais de port de le faire.


Aucun détail sur le pourquoi de l’incident (erreur humaine, buldozer qui a coupé un câble, orange qui n’avait pas payé ses factures à temps… ?)








Bobmoutarde a écrit :



Sauf que le problème est pas chez Orange si tu lisais un peu la news, ils ont autant subi que l’ensemble des abonnés sur ce coup là… mais bon facile de cracher sa bile quand on ne lit pas (ou on ne sait pas lire).

T’as beau avoir la meilleure infra du monde, si c’est le mec en face qui fait de la merde sur ses annonces BGP t’en subis les conséquences, le temps de trouver d’où vient la panne. Ensuite plusieurs choix :




  • tu mets une rustine pour palier le problème ? si tu sais comment faire

  • tu contactes l’AS défaillant et tu pries pour que les mecs trouvent et réparent vite (mais va contacter à 6h00 du matin une entreprise US sur un problème internet inter AS haha)



    …Parce que ce genre de boîte n’a pas un service d’astreintes H24?



Déjà quand je parle du 1/ et 2/ je ne parle pas de toi, mais bien de Orange dans ce cas là…

Fait ta réclamation, si t’as un contrat avec les bonnes clauses tu auras gain de cause mais Orange refacturera ça au tiers qui a causé la panne (et non un prestataire).

Merci de douter de mes compétences, elles semblent au dessus des tiennes sur le sujet.



Demander à Free en terme de peering ? C’est une blague ? On en parle du peering Netflix ? Twitch chez monsieur Niel ? Et bon sans être mauvaise langue, comparé les débits envoyés par Orange avec SFR et Bouygues c’est le jour et la nuit. Donc non on ne peut pas demander à ces gentils FAI comment ils fonctionnent parce que tu connais absolument rien de l’archi, des volumétries, des contrats et j’en passe.



Si t’es pas content d’Orange, comme apparemment t’as 3 autres FAI t’es libre d’aller voir ailleurs ou de dire à ton client de faire de même. Mais bon toujours plus facile de râler (on l’a bien compris sur les RS et forum) que d’essayer de comprendre d’où vient le problème, qui est responsable et pourquoi le retour à la normale ne s’est pas fait plus rapidement que ça.


Je pense que t’as jamais travaillé avec des mecs qui gèrent des AS dans le monde entier…Ici t’as dejà Orange avec Open Transit (en Inde) et Level3 (US). 3 gros fuseaux horaires différents, faut trouver la panne et la diagnostiquer puis ensuite tu as cru que Orange avait le numéro d’astreinte du mec de chez Level3 ? Bah non, y’a tout un process, une cellule de crise chez level3 qui évalue si oui ou non faut déclencher l’astreinte sur le bon secteur.

Suivant la volumétrie qui a un problème vu que ces gens gèrent des terrabits de trafic, si t’as 300 Go/s qui passent à la trappe le mec va te dire “non non c’est pas chez nous on voit rien sur les graphs”, effectivement 300Go sur 30To c’est peanut.

Dans tous les incidents informatiques, quelqu’ils soient. Le problème n’est pas la technique c’est la communication. Dans une grande boite la comm interne c’est déjà une tannée alors imagine inter entreprise sur des fuseaux horaires différents avec en plus plusieurs entreprises sur le coup (Orange, Open Transit, Level3 et le fameux tiers et peut être d’autres). Va synchroniser tout le monde… Très très dur malheureusement








Bobmoutarde a écrit :



Je pense que t’as jamais travaillé avec des mecs qui gèrent des AS dans le monde entier…Ici t’as dejà Orange avec Open Transit (en Inde) et Level3 (US). 3 gros fuseaux horaires différents, faut trouver la panne et la diagnostiquer puis ensuite tu as cru que Orange avait le numéro d’astreinte du mec de chez Level3 ? Bah non, y’a tout un process, une cellule de crise chez level3 qui évalue si oui ou non faut déclencher l’astreinte sur le bon secteur.



Et donc des gens qui bossent sur place. Donc avec qui on peut communiquer. CQFD.



Tu peux rejeter la faute sur Orange autant que tu veux, mais il y a deux options:




  • Soit Orange n’a pas respecté le SLA et tu peux te faire indemniser

  • Soit Orange, malgré cet incident, est toujours conforme au SLA, et il n’y a pas à se plaindre. Si le SLA convenu dans ton contrat est trop faible, prend un autre contrat, mais je parie que ça ne sera pas le même prix ;)


Peu de chance que l’interface externe de Level3 te donne le numéro de son astreinte direct, ils vont l’appeler et lui dire “y’a tel et tel problème avec Orange”. Le mec va se co, faire son diag et dire “non y’a rien” à son interface externe qui va appeler Orange et ainsi de suite jusqu’à trouver le bon interlocuteur.

Une fois le bon trouvé, faut éventuellement le faire monter sur un pont d’incident, ici Orange est en incident mais pas forcément les autres malheureusement.

Puis quand le mec a trouvé la panne, faut qu’il la gère (un roll back de configuration ? une modification de conf ?), est ce que ça n’aura pas d’impact sur d’autres transitaires ou client ? Analyse à faire toussa toussa, vu l’heure si le problème est aux US l’astreinte devait dormir tranquillement. Le petit saut du lit qui ne fait pas plaisir haha








Bobmoutarde a écrit :



Peu de chance que l’interface externe de Level3 te donne le numéro de son astreinte direct



Je n’ai jamais dit qu’Orange appelait l’astreinte direct, faut pas déformer mes propos non plus. J’ai juste dit qu’il y avait une astreinte H24 pour ce genre de pbs et donc forcément des gens qu’Orange peut contacter, nuance.



Oui oui je ne te fais pas dire ce que tu n’as pas dit non plus, mais avant de déclencher une astreinte t’as 4000 checks côté Orange pour vérifier que le problème vient pas de chez eux et pas passer pour des buses. Après oui ça communique mais pas assez rapidement et efficacement à mon sens d’où le fait que je parle d’un lien direct avec pont d’incident. Ca doit être des appels à des centres de supervision qui appellent les astreintes ainsi de suite, limite c’est des mails sur des boites génériques de centre de supervision je ne sais pas… Ca dépend certainement des volumétries en jeu et des clauses des contrats possiblement.

Pour avoir fait des incidents inter entreprises France c’est déjà la loose pas possible alors mettre les indiens, les états uniens et peut être d’autres bonjour le cirque….








Bobmoutarde a écrit :



Oui oui je ne te fais pas dire ce que tu n’as pas dit non plus, mais avant de déclencher une astreinte t’as 4000 checks côté Orange pour vérifier que le problème vient pas de chez eux et pas passer pour des buses.



Ce qui n’est absolument pas ce que tu disais au départ (“il est possible de contacter une boîte US qui gère les AS à 6h du mat”)…



il est possible oui, après savoir sur qui tu tombes, est ce que le mec comprend bien le truc ? est ce que tu arrives avec assez d’infos pertinentes pour que ça percutes chez lui ? est-ce qu’avec les horaires que tu lui donnes le mec se rend compte qu’il y a eu un TP ou des alarmes sur des équipements j’en sais absolument rien du process de contact en cas d’incident… Je pense que c’est vraiment pas de la tarte en tout cas.








Bobmoutarde a écrit :



il est possible oui, après savoir sur qui tu tombes, est ce que le mec comprend bien le truc ? est ce que tu arrives avec assez d’infos pertinentes pour que ça percutes chez lui ? est-ce qu’avec les horaires que tu lui donnes le mec se rend compte qu’il y a eu un TP ou des alarmes sur des équipements j’en sais absolument rien du process de contact en cas d’incident… Je pense que c’est vraiment pas de la tarte en tout cas.



En résumé, tu pars sur des suppositions basées sur des hypothèses de ton cru basées sur des connaissances à peu près nulles, pour en conclure “c’est impossible de les contacter” donc. Okay…



Dis moi où j’ai explicitement dit que c’était impossible.. OKAY








Bobmoutarde a écrit :



Dis moi où j’ai explicitement dit que c’était impossible.. OKAY





Voilà pour toi Jacquouille :





Bobmoutarde a écrit :



(mais va contacter à 6h00 du matin une entreprise US sur un problème internet inter AS haha)



Si ca, ca ne veut pas dire que c’est impossible de les contacter à 6h du mat…



Ça veut dire que c’est difficile… Mais bon








Dams20 a écrit :



Je

confirme, la matinée à été catastrophique, c’est des 10aine de sites

donc le mien qui le fonctionnait plus, ou presque plus, le manque de

comm est toujours à déplorer dans se genre de situation, il faut

toujours attendre des heures et des heures pour avoir une info du

pourquoi sa ne marche pas et d’où viens le problème !

J’ai perdu une matinée de prod donc 2h00 a chercher le problème sur mes serveurs dans le vent …





&nbsp;C’est pour cela qu’avant de chercher un problème sur un serveur, on vérifie l’accès via plusieurs FAI.