La panne d'Optus met en évidence la résistance de l'Internet en Australie

15 Novembre 2023

Senior Manager, Internet Technology - Asia-Pacific, Internet Society

Catégories:

Resilience

Un internet résilient est essentiel à une économie florissante et au progrès d'un pays. Il soutient les entreprises, alimente l'innovation et relie les communautés, formant ainsi l'épine dorsale du progrès et de la prospérité de la société moderne.

La résilience des réseaux va bien au-delà de la simple prévention des pannes de réseau ou de la reprise après sinistre. Elle reconnaît le caractère inévitable de ces incidents et donne la priorité à la restauration rapide des services par l'équipe d'exploitation du réseau, ainsi qu'à la planification préventive et à la conception de systèmes robustes pour atténuer l'impact des pannes.

À l'aube du 8 novembre 2023, une interruption de service généralisée a privé les abonnés d'Optus, le deuxième fournisseur de services de télécommunications d'Australie, de connectivité Internet. Cette panne de grande ampleur a affecté les communications fixes à large bande et mobiles de plus de 10 millions de personnes et de 400 000 entreprises et services, dont 000 services d'urgence, hôpitaux, banques et services de transport public.

Les fournisseurs d'opérateurs de réseaux mobiles virtuels (MVNO) d'Optus, tels qu'Amaysim et Coles mobile, et les utilisateurs d'Optus mobile à l'étranger ont également été touchés.

Comme le montre la figure 1, les services ont commencé à être rétablis vers 13h00 AEDT, mais le rétablissement complet a pris plusieurs heures, certains clients signalant des problèmes persistants jusque dans la soirée.

Figure 1 - Trafic internet vers le réseau Optus (AS4804). Source : Kentik : Kentik.

D'après ce que nous savons jusqu'à présent, une petite erreur technique a déclenché une réaction en chaîne qui a conduit à une grande panne d'électricité sur l'internet. L'absence de protocoles de résilience robustes et testés a exacerbé la longue période de rétablissement.

Nous devons examiner cette erreur ensemble et en tirer les leçons. Si nous ne le faisons pas, le même type de problème se posera à quelqu'un d'autre, comme nous l'avons déjà vu au Canada et en Italie au cours des 18 derniers mois.

Lire:

La panne d'Internet en Italie, une tempête parfaite

Panne de Rogers : Que savons-nous deux mois plus tard ?

Prendre ses responsabilités

Optus et les représentants du gouvernement ont rapidement évalué et communiqué que la panne n'était pas due à une cyberattaque. Cependant, Optus n'a pas encore publié d'analyse des causes fondamentales (RCA), une pratique à laquelle nous nous sommes habitués grâce aux politiques d'ouverture d'entreprises telles que Cloudflare, Fastly et, dans le cas de l'Australie, Telstra et Aussie Broadband. Ces organisations ont établi une référence en matière de transparence en fournissant rapidement des évaluations approfondies des causes après les interruptions de service, une attente qui est désormais la norme en matière de fourniture de services et de communication avec les clients.

Les journalistes australiens tentent de combler ce vide en recherchant activement toutes les informations disponibles sur l'incident. De nombreux articles de presse soulignent la cause possible de l'incident et citent des sources non officielles d'Optus. Comme cité dans l'article du Sydney Morning Herald :

Optus a déclaré que ces mises à jour avaient été envoyées "à la suite d'une mise à jour logicielle de routine". La source d'Optus a ajouté que la mise à jour du logiciel avait eu lieu au Singtel Internet Exchange, et non sur le réseau d'Optus.

Une fois reçues, les modifications des informations de routage se sont ensuite propagées à travers plusieurs couches du réseau Optus et ont dépassé les "niveaux de sécurité prédéfinis" sur les routeurs clés qui ne pouvaient pas les gérer, ce qui a entraîné la déconnexion des routeurs du réseau principal d'Optus "pour se protéger".

En réponse à cet article, Jared Mauch (architecte réseau chez Akamai) a publié un message sur X (anciennement Twitter), soulignant les problèmes mentionnés dans l'article qui sont liés au filtre Maximum-Prefix du Border Gateway Protocol (BGP).

Qu'est-ce qu'un filtre de préfixes maximum BGP ?

Le filtre BGP Maximum-Prefix est un mécanisme de sécurité qui protège un routeur d'être submergé par un trop grand nombre de préfixes. Lorsque le nombre de préfixes reçus d'un voisin dépasse le maximum configuré, le filtre peut déclencher un avertissement et, par défaut, fermer la session BGP.

Ce filtre permet d'éviter l'explosion de la table de routage, qui peut entraîner des pannes de réseau. Il permet d'atténuer les effets des mauvaises configurations ou des instabilités de routage qui peuvent propager un grand nombre de préfixes de manière inattendue.

Dans toutes les grandes plateformes de routeurs, telles que Cisco, Juniper et Arista, lorsque la limite maximale de préfixes BGP est atteinte, le comportement par défaut est de fermer la session BGP. La session reste fermée jusqu'à ce qu'elle soit effacée manuellement. Dans le cas des routeurs Cisco, elle restera fermée à moins que la commande suivante ne soit utilisée pour rétablir la session :

commande clear ip bgp x.x.x.x

Dans son fil de discussion, Jared a fourni des commandes de filtrage BGP Maximum-Prefix pour les routeurs Cisco et Juniper.

Cisco example (set restart time):
neighbor 10.4.9.5 maximum-prefix 1000 90 restart 60

Juniper example:
family inet prefix-limit maximum 1000 teardown idle-timeout 60

ALSO for Juniper look at using accepted-prefix-limit instead, even if you filter the routes out they will count
— jared mauch (@jaredmauch) November 14, 2023

La fonction "restart" de Cisco ou "teardown idle-timeout" de Juniper avec un intervalle de temps dans la configuration de la limite maximale de préfixes permet la reconnexion automatique d'une session de peering BGP qui a été précédemment fermée après avoir dépassé le nombre maximal de préfixes fixé. Cette fonction garantit la reprise automatique de la session, ce qui évite aux opérateurs de réseau d'avoir à intervenir pour rétablir manuellement la connexion. Toutefois, la connexion sera à nouveau interrompue si la raison initiale de l'interruption subsiste.

Les signes d'un manque de résilience étaient évidents

Si l'on veut réfléchir à l'impact de cette importante panne d'Internet en Australie, il est essentiel d'adopter une vision globale. D'un point de vue technique, si nous examinons le profil de résilience d'Optus, plusieurs indices d'une panne sont apparents.

Internet Society embarked on a mission last year to measure the Internet Resilience Index(IRI), which tracks open-source Internet resiliency metrics to support the development of policies and infrastructure to improve Internet resilience at local, regional, and global levels.

L'adoption de bonnes normes d'exploitation des réseaux et la mise en œuvre de technologies clés telles que la Resource Public Key Infrastructure (RPKI) témoignent de la volonté des opérateurs de rendre leurs réseaux plus résistants aux pannes.

La mise en œuvre de RPKI (ou son absence) dans cette panne n'a joué aucun rôle. Toutefois, la baisse du taux d'adoption de la RPKI par Optus est un signe inquiétant de sa résilience globale par rapport aux tendances d'adoption de la RPKI par les autres réseaux australiens.

L'annonce d'itinéraires avec des autorisations d'origine d'itinéraire (ROA) non valides reflète un oubli dans la mise en place d'un cadre de routage sécurisé. Ne pas mettre en œuvre la validation d'itinéraire basée sur RPKI (Route Origin Validation, ou ROV) peut être considéré comme un manquement dans la promotion de la sécurité du réseau. Il s'agit là de quelques-unes des mesures recommandées dans le cadre de l'initiative MANRS pour améliorer la sécurité du routage, à laquelle participent déjà de grands opérateurs australiens, dont Telstra et Vocus. Pour plus de détails, consultez le site web du MANRS.

Figure 2 - Adoption de RPKI par Optus (AS4804). Source : Observatoire du MANRS : Observatoire MANRS.

Un autre indice a été le choix d'Optus de ne pas s'engager dans le peering local dans le paysage d'interconnexion dynamique de l'Australie, où la plupart des opérateurs locaux font du peering local. S'il s'agit sans doute d'une décision commerciale stratégique, elle ne tient pas compte de l'opportunité de renforcer la résilience du réseau grâce à des points de connexion diversifiés.

L'examen doit également porter sur la résilience du marché

Toute réflexion devrait évaluer les effets involontaires de la consolidation du marché et du contrôle centralisé, en s'attaquant aux complexités de l'évaluation de la résilience de l'internet.

À ce stade, on sait à quel point les technologies de l'internet sont ancrées dans la société, qu'il s'agisse du commerce, des soins de santé, des transports ou des systèmes politiques. Avant de se lancer dans cette analyse réflexive, les personnes impliquées dans les opérations sur l'internet doivent acquérir une connaissance approfondie des détails de l'incident Optus.

Le 9 novembre 2023, en réponse à l'incident d'Optus, le Sénat australien a renvoyé cette question à la Commission des références en matière d'environnement et de communications pour enquête, et sa première audience publique est prévue pour le 17 novembre 2023. Pour plus de détails sur cette audition, cliquez ici.

Conformément à la soumission faite par l'Internet Society en réponse au document de discussion de la stratégie australienne de cybersécurité 2023-2030, nous avons souligné certains points importants pour les mandats de sécurité de l'acheminement. Nous souhaitons également insister à nouveau sur ces points du point de vue de la résilience du réseau.

L'écosystème de l'internet évolue rapidement, avec l'apparition constante de nouvelles technologies, normes, protocoles, plateformes et services. Il peut donc s'avérer difficile d'élaborer et d'appliquer des lois et des réglementations qui suivent la nature changeante de l'internet. Bien que le gouvernement fédéral australien puisse prendre des mesures proactives pour améliorer la résilience des réseaux, nous mettons en garde contre des mandats normatifs généralisés, qui pourraient avoir de graves conséquences involontaires, car nous croyons fermement que les normes plutôt que les lois régissent mieux l'industrie de l'internet.

Les normes sont plus souples et plus adaptables que les lois, qui peuvent être rigides et lentes à changer. Au fur et à mesure que le secteur de l'internet évolue, les normes peuvent s'adapter rapidement aux nouvelles technologies et pratiques. Elles sont souvent élaborées en collaboration par les parties prenantes du secteur de l'internet, notamment les groupes d'experts techniques, les organisations de la société civile et les gouvernements. Cette approche collaborative peut promouvoir des valeurs et des objectifs communs, ce qui renforce la coopération et la confiance entre les parties prenantes. Elle favorise également l'innovation en promouvant les meilleures pratiques, en encourageant l'expérimentation et en favorisant une culture d'amélioration continue.

Dans le monde des opérations sur l'internet, les opérateurs doivent apprendre des erreurs des autres. Garder secrets les échecs opérationnels n'aide personne. Cela ne fait qu'augmenter le risque que de petits problèmes cachés deviennent importants. Le gouvernement pourrait encourager les grands fournisseurs de réseaux à partager ouvertement leurs pannes afin que tout le monde puisse apprendre et s'améliorer ensemble.

Tags: