Pannes d'Internet : Une question de "si", mais pas de "quand".
Il n'y a jamais de bon moment pour perdre sa connectivité internet. La plupart d'entre nous peuvent résoudre les problèmes de connectivité quotidiens en éteignant puis en rallumant leur routeur ou en activant puis en désactivant le mode vol. Mais les problèmes plus proches du cœur de l'internet nécessitent des efforts de dépannage plus techniques de la part des ingénieurs qui supervisent les réseaux concernés.
Le mois dernier, nous avons rapporté qu'un tiers des utilisateurs australiens d'Internet et de téléphonie mobile s'étaient retrouvés sans connexion Internet pendant plusieurs heures à la suite d'une erreur technique mineure de la part du deuxième opérateur du pays.
Deux semaines plus tard, l'un des plus grands points d'échange Internet (IXP) du monde, Amsterdam Internet Exchange (AMS-IX), a également connu une défaillance technique mineure pendant plusieurs heures, qui a réduit son trafic de près de 80 %.
La cause et l'effet de ces pannes étaient très différents, étant donné que ces deux réseaux servent deux autres objectifs.
Le peering est la clé du maintien de l'internet
Dans le premier cas, le fournisseur d'accès à Internet (FAI), Optus, répond directement aux besoins d'Internet et de télécommunications d'environ 10 millions de clients individuels et sert indirectement le reste de la population australienne en fournissant des services d'urgence, des services bancaires et des services d'administration en ligne.
Si l'on regarde la figure 2, l'effet que cela a eu sur la connectivité internet globale de l'Australie a été relativement minime (-8%), ce qui reflète à la fois la diversité des FAI de détail en Australie et la forte culture de peering, qui se classe au premier rang dans la région Asie-Pacifique selon les rapports nationaux Pulse.
Les problèmes de connectivité rencontrés par Optus auraient pu être atténués par une intensification de l'échange de trafic avec d'autres réseaux locaux et IXP. Mais cela reste spéculatif car nous n'avons pas encore examiné une analyse détaillée des causes profondes de l'incident auquel Optus a été confronté.
Dans le second cas, AMS-IX ne dessert pas directement les utilisateurs individuels de l'internet, mais il en dessert un grand nombre indirectement. Les IXP sont des sites physiques où les FAI et les réseaux de diffusion de contenu (CDN) échangent du trafic entre eux, réduisant ainsi les temps de latence et les coûts. AMS-IX possède 16 sites de ce type aux Pays-Bas, qui desservent environ 870 réseaux. Elle possède également des sites en Amérique du Nord et du Sud, en Afrique, au Moyen-Orient et en Asie, de sorte que toute panne peut être ressentie à l'échelle mondiale.
Même si AMS-IX est le principal IXP aux Pays-Bas, il en existe d'autres, notamment NL-IX, qui, selon une analyse de RIPE Labs (figure 3), a reçu une grande partie du trafic qui a été rerouté pendant la panne.
En fin de compte, les Pays-Bas (figure 4), ou tout autre pays dans lequel AMS-IX est implanté, n'ont pas connu de baisse de la connectivité Internet en raison de la panne.
C'est ainsi que l'internet devrait fonctionner et qu'il fonctionne dans des environnements dotés d'écosystèmes d'échange de trafic solides. C'est en partie pour cette raison que les Pays-Bas se classent parmi les cinq réseaux internet locaux les plus résilients au monde, selon l'indice de résilience Pulse Internet Resilience Index.
Une communication opportune est nécessaire pour réduire les effets
L'intrigue secondaire de ces deux incidents est la manière dont les deux organisations ont fourni un retour d'information sur leurs pannes respectives.
Optus n'a pas encore publié d'analyse des causes profondes de sa panne. Le fait de fournir rapidement une telle analyse aide les autres réseaux à comprendre le problème et à tester leurs propres réseaux afin d'éviter une panne similaire et de maintenir la connectivité pour le trafic réacheminé. Ce point n'a pas échappé au gouvernement australien qui, dans le cadre d'une enquête en cours, s'interroge sur l'adéquation des communications d'Optus le jour de la panne.
L'analyse des causes profondes (RCA) joue un rôle essentiel dans la communauté Internet. Lorsqu'une organisation choisit de ne pas partager les résultats de son ACR, elle prive les autres opérateurs de précieuses possibilités d'apprentissage. Ce manque d'échange d'informations implique que d'autres peuvent potentiellement répéter les mêmes erreurs. Le partage des connaissances et de l'apprentissage est crucial dans un écosystème fortement tributaire de l'interconnexion. Grâce à cette approche collaborative, nous pouvons collectivement faire progresser et améliorer la résilience de l'internet. Nous ne pourrons construire un réseau mondial plus robuste et plus fiable qu'en discutant ouvertement et en apprenant des expériences et des erreurs de chacun.
D'autre part, AMS-IX a rapidement fourni un calendrier et une analyse détaillés de sa panne, ce qui a été bien accueilli par la communauté des réseaux lors de la conférence RIPE 87 qui s'est tenue à Rome la semaine dernière.
Les pannes font partie de la vie des fournisseurs d'accès à Internet. Il ne s'agit pas de savoir si, mais quand. Heureusement, de nombreux fournisseurs et pays dans leur ensemble appliquent les meilleures pratiques actuelles pour assurer le fonctionnement de l'internet en cas de problème.
Regardez la présentation d'Indexing Europe's Internet Resilience à RIPE 87.
