Un internet résilient est essentiel pour une économie florissante et le progrès d’un pays. Il soutient les entreprises, alimente l’innovation et relie les communautés, formant ainsi l’épine dorsale du progrès et de la prospérité de la société moderne.
La résilience des réseaux va bien au-delà de la simple prévention des pannes de réseau ou de la reprise après sinistre. Il reconnaît le caractère inévitable de ces incidents et donne la priorité au rétablissement rapide des services par l’équipe chargée de l’exploitation du réseau, ainsi qu’à une planification préventive et à une conception solide du système afin d’atténuer l’impact des pannes.
À l’aube du 8 novembre 2023, une perturbation généralisée des services a privé les abonnés d’Optus, le deuxième fournisseur de services de télécommunications d’Australie, de connexion à Internet. Cette panne de grande ampleur a affecté les communications fixes à large bande et mobiles de plus de 10 millions de personnes et de 400 000 entreprises et services, dont 000 services d’urgence, des hôpitaux, des banques et des services de transport public.
Les fournisseurs d’opérateurs de réseaux mobiles virtuels (MVNO) d’Optus, tels qu’Amaysim et Coles mobile, et les utilisateurs d’Optus mobile à l’étranger ont également été touchés.
Comme le montre la figure 1, les services ont commencé à être rétablis vers 13h00 AEDT, mais le rétablissement complet a pris plusieurs heures, certains clients signalant des problèmes persistants jusque dans la soirée.
D’après ce que nous savons jusqu’à présent, une petite erreur technique a déclenché une réaction en chaîne qui a conduit à une grande panne d’électricité sur l’internet. L’absence de protocoles de résilience robustes et éprouvés a exacerbé la longue période de rétablissement.
Nous devons examiner cette erreur ensemble et en tirer les leçons. Si nous ne le faisons pas, le même type de problème se posera à quelqu’un d’autre, comme nous l’avons déjà vu au Canada et en Italie au cours des 18 derniers mois.
Lire:
La panne d’Internet en Italie, une tempête parfaite
Panne de Rogers : Que savons-nous deux mois plus tard ?
Prendre ses responsabilités
Les responsables d’Optus et du gouvernement ont rapidement évalué et communiqué que la panne n’était pas due à une cyberattaque. Cependant, Optus n’a pas encore publié d’analyse des causes fondamentales (RCA), une pratique à laquelle nous nous sommes habitués en raison des politiques d’ouverture d’entreprises telles que Cloudflare, Fastly et, dans le cas de l’Australie, Telstra et Aussie Broadband. Ces organisations ont établi une référence en matière de transparence en fournissant rapidement des évaluations approfondies des causes après les interruptions de service, une attente qui est désormais la norme en matière de fourniture de services et de communication avec les clients.
Les journalistes australiens tentent de combler ce vide en recherchant activement toutes les informations disponibles sur l’incident. De nombreux articles de presse soulignent la cause possible de l’incident et citent des sources non officielles d’Optus. Comme cité dans l’article du Sydney Morning Herald:
Optus a déclaré que ces mises à jour ont été envoyées “à la suite d’une mise à jour logicielle de routine”. La source d’Optus a ajouté que la mise à jour du logiciel a eu lieu au Singtel Internet Exchange, et non sur le réseau d’Optus.
Une fois reçues, les modifications des informations de routage se sont ensuite propagées à travers plusieurs couches du réseau Optus et ont dépassé les “niveaux de sécurité prédéfinis” sur les routeurs clés qui ne pouvaient pas les gérer, ce qui a entraîné la déconnexion des routeurs du réseau principal d’Optus “pour se protéger”.
En réponse à cet article, Jared Mauch (architecte réseau chez Akamai) a publié un message sur X (anciennement Twitter), soulignant les problèmes mentionnés dans l’article qui sont liés au filtre Maximum-Prefix du Border Gateway Protocol (BGP).
Qu’est-ce qu’un filtre de préfixe maximum BGP ?
Le filtre BGP Maximum-Prefix est un mécanisme de sécurité qui empêche un routeur d’être submergé par un trop grand nombre de préfixes. Lorsque le nombre de préfixes reçus d’un voisin dépasse le maximum configuré, le filtre peut déclencher un avertissement et, par défaut, fermer la session BGP.
Ce filtre permet d’éviter l’explosion de la table de routage, qui peut entraîner des pannes de réseau. Elle permet d’atténuer les effets des mauvaises configurations ou des instabilités de routage qui peuvent propager un grand nombre de préfixes de manière inattendue.
Dans toutes les grandes plateformes de routeurs, telles que Cisco, Juniper et Arista, lorsque la limite maximale de préfixes BGP est atteinte, le comportement par défaut consiste à interrompre la session BGP. La session restera interrompue jusqu’à ce qu’elle soit libérée manuellement. Dans le cas des routeurs Cisco, il restera en panne jusqu’à ce que la commande suivante soit utilisée pour rétablir la session :
clear ip bgp x.x.x.x command
Dans son fil de discussion, Jared a fourni des commandes de filtrage BGP Maximum-Prefix pour les routeurs Cisco et Juniper.
Exemple Cisco (temps de redémarrage défini) :
– jared mauch (@jaredmauch) 14 novembre 2023
neighbor 10.4.9.5 maximum-prefix 1000 90 restart 60
Exemple Juniper :
family inet prefix-limit maximum 1000 teardown idle-timeout 60
AUSSI pour Juniper, utilisez plutôt accepted-prefix-limit, même si vous filtrez les itinéraires, ils seront pris en compte.
La fonction “restart” de Cisco ou “teardown idle-timeout” de Juniper avec un intervalle de temps dans la configuration de la limite maximale de préfixes permet la reconnexion automatique d’une session de peering BGP qui a été précédemment fermée après avoir dépassé le nombre maximal de préfixes défini. Cette fonction garantit la reprise automatique de la session, ce qui évite aux opérateurs de réseau d’avoir à intervenir pour rétablir manuellement la connexion. Toutefois, il baissera à nouveau si la raison initiale de sa baisse existe toujours.
Les signes d’un manque de résilience étaient évidents
Si nous voulons réfléchir à l’impact de cette importante panne d’Internet en Australie, il est essentiel d’adopter une vision globale. D’un point de vue technique, si l’on examine le profil de résilience d’Optus, plusieurs indices d’une panne sont apparents.
L’adoption de bonnes normes d’exploitation des réseaux et la mise en œuvre de technologies clés telles que l’infrastructure de ressources à clé publique (RPKI) témoignent de la volonté des opérateurs de rendre leurs réseaux plus résistants aux pannes.
La mise en œuvre de RPKI (ou l’absence de RPKI) dans cette panne n’a joué aucun rôle. Toutefois, la baisse du taux d’adoption de la RPKI par Optus est un signe inquiétant de sa résilience globale par rapport aux tendances d’adoption de la RPKI par les autres réseaux australiens.
L’annonce d’itinéraires avec des autorisations d’origine des itinéraires (ROA) non valides reflète un oubli dans l’engagement d’un cadre de routage sécurisé. Le fait de ne pas mettre en œuvre la validation des itinéraires basée sur le RPKI (Route Origin Validation, ou ROV) peut être considéré comme un manquement à la promotion de la sécurité du réseau. Ce sont là quelques-unes des mesures recommandées dans le cadre de l’initiative MANRS pour améliorer la sécurité de l’acheminement, à laquelle participent déjà de grands opérateurs australiens, dont Telstra et Vocus. Pour plus de détails, consultez le site web du MANRS.
Un autre indice a été le choix d’Optus de ne pas s’engager dans le peering local dans le paysage d’interconnexion dynamique de l’Australie, où la plupart des opérateurs locaux pratiquent le peering local. Bien qu’il s’agisse probablement d’une décision commerciale stratégique, elle ne tient pas compte de l’opportunité de renforcer la résilience du réseau par le biais de divers points de connexion.
L’examen doit également porter sur la résilience du marché
Toute réflexion devrait évaluer les effets involontaires de la consolidation du marché et du contrôle centralisé, en s’attaquant aux complexités de l’évaluation de la résilience de l’internet.
À l’heure actuelle, on sait à quel point les technologies de l’internet sont ancrées dans la société, qu’il s’agisse du commerce, des soins de santé, des transports ou des systèmes politiques. Avant de se plonger dans cette analyse réflexive, les personnes impliquées dans les opérations Internet doivent comprendre les détails de l’incident Optus.
Le 9 novembre 2023, en réponse à l’incident Optus, le Sénat australien a renvoyé cette question à la commission des références en matière d’environnement et de communications pour enquête, et sa première audience publique est prévue pour le 17 novembre 2023. Plus de détails sur cette audition sont disponibles ici.
En réponse au document de discussion sur la stratégie australienne de cybersécurité 2023-2030, l’Internet Society a souligné certains points importants pour les mandats de sécurité en matière d’acheminement. Nous souhaitons également insister à nouveau sur ces points du point de vue de la résilience du réseau.
L’écosystème de l’internet évolue rapidement, avec l’apparition constante de nouvelles technologies, normes, protocoles, plateformes et services. Il peut donc s’avérer difficile d’élaborer et d’appliquer des lois et des règlements adaptés à la nature changeante de l’internet. Bien que le gouvernement fédéral australien puisse prendre des mesures proactives pour améliorer la résilience du réseau, nous mettons en garde contre des mandats normatifs généralisés, qui pourraient avoir de graves conséquences involontaires, car nous croyons fermement que les normes plutôt que les lois régissent mieux l’industrie de l’internet.
Les normes sont plus souples et plus adaptables que les lois, qui peuvent être rigides et lentes à changer. À mesure que le secteur de l’internet évolue, les normes peuvent s’adapter rapidement aux nouvelles technologies et pratiques. Ils sont souvent élaborés en collaboration par les parties prenantes du secteur de l’internet, y compris des groupes d’experts techniques, des organisations de la société civile et des gouvernements. Cette approche collaborative peut promouvoir des valeurs et des objectifs communs, ce qui favorise la coopération et la confiance entre les parties prenantes. Elle encourage également l’innovation en promouvant les meilleures pratiques, en encourageant l’expérimentation et en favorisant une culture d’amélioration continue.
Dans le monde des opérations Internet, les opérateurs doivent apprendre de leurs erreurs respectives. Garder secrets les échecs opérationnels n’aide personne. Cela ne fait qu’augmenter le risque que de petits problèmes cachés deviennent importants. Le gouvernement pourrait encourager les grands fournisseurs de réseaux à partager ouvertement leurs pannes afin que tout le monde puisse apprendre et s’améliorer ensemble.