Cortes de Internet: Un caso de si, no de cuándo
Nunca es un buen momento para perder la conectividad a Internet. La mayoría de nosotros puede solucionar los problemas de conectividad cotidianos apagando y volviendo a encender el router o activando y desactivando el modo avión. Pero, los problemas más cercanos al núcleo de Internet requieren esfuerzos de resolución de problemas más técnicos por parte de los ingenieros que supervisan las redes afectadas.
El mes pasado informamos de que un tercio de los usuarios australianos de Internet y telefonía móvil se quedaron sin conexión a Internet durante varias horas debido a un pequeño fallo técnico del segundo operador del país.
Dos semanas después, uno de los mayores Puntos de Intercambio de Internet (IXP) del mundo, Amsterdam Internet Exchange (AMS-IX), también experimentó un pequeño fallo técnico durante varias horas, que redujo su tráfico en casi un 80%.
La causa y el efecto de estos cortes fueron muy diferentes, dado que estas dos redes sirven a otros dos propósitos.
El peering es clave para que Internet siga funcionando
En el primer caso, el proveedor de servicios de Internet (ISP), Optus, atiende directamente las necesidades de Internet y telecomunicaciones de unos 10 millones de clientes individuales e indirectamente atiende al resto de la población australiana proporcionando operaciones de servicios de emergencia, operaciones bancarias y servicios de administración electrónica.
Si observamos la figura 2, el efecto que esto tuvo en la conectividad general a Internet de Australia fue relativamente mínimo (-8%), lo que es un reflejo tanto de la diversidad de ISP minoristas en Australia como de la sólida cultura de peering, que ocupa el primer lugar en Asia Pacífico según los informes Pulse por países.
Los problemas de conectividad experimentados por Optus podrían haberse mitigado mediante un aumento del peering con otras redes locales y IXP. Pero, esto sigue siendo especulativo ya que todavía tenemos que revisar un análisis detallado de la causa raíz del incidente al que se enfrentó Optus.
En el segundo caso, AMS-IX no sirve directamente a usuarios individuales de Internet, per se, pero sí a muchos indirectamente. Los IXP son ubicaciones físicas donde los ISP y las redes de distribución de contenidos (CDN) intercambian tráfico entre sí, reduciendo la latencia y los costes. AMS-IX cuenta con 16 de estos emplazamientos en los Países Bajos, que dan servicio a unas 870 redes. También tienen ubicaciones en América del Norte y del Sur, África, Oriente Próximo y Asia, por lo que cualquier interrupción se puede sentir a nivel mundial.
Aunque AMS-IX es el IXP dominante en los Países Bajos, hay otros, incluido NL-IX, que, según un análisis de RIPE Labs (Figura 3), recibió gran parte del tráfico que se desvió durante la interrupción.
Al final, en los Países Bajos (figura 4), o en cualquier otro país en el que AMS-IX tenga sedes, no se produjo ninguna caída de la conectividad a Internet debido al corte.
Así es como Internet debería funcionar y funciona en entornos con sólidos ecosistemas de peering. Es parte de la razón por la que los Países Bajos se encuentran entre las cinco redes locales de Internet más resistentes del mundo según el Índice Pulse de Resiliencia de Internet.
La comunicación oportuna es necesaria para reducir el efecto
Una subtrama de estos dos incidentes es cómo las dos organizaciones han proporcionado información sobre sus respectivos apagones.
Optus aún no ha publicado un análisis de la causa raíz (RCA) de su interrupción. Facilitar este tipo de análisis con prontitud ayuda a otras redes de todo el mundo a comprender el problema y a probar sus propias redes para evitar un apagón similar y mantener la conectividad del tráfico desviado. Este punto no se le escapa al gobierno australiano, que está investigando la idoneidad de las comunicaciones de Optus el día del apagón como parte de una investigación en curso.
Un análisis de causa raíz (ACR) desempeña un papel fundamental en la comunidad de Internet. Cuando una organización decide no compartir las conclusiones de su ACR, esencialmente oculta valiosas oportunidades de aprendizaje a otros operadores. Esta falta de intercambio de información implica que otros pueden repetir potencialmente los mismos errores. Compartir las conclusiones y el aprendizaje es crucial en un ecosistema que depende en gran medida de la interconexión. A través de este enfoque colaborativo, podemos avanzar colectivamente y mejorar la resistencia de Internet. Sólo podremos construir una red global más robusta y fiable debatiendo abiertamente y aprendiendo de las experiencias y errores de los demás.
Por otro lado, AMS-IX proporcionó rápidamente una cronología y un análisis detallados de su interrupción, lo que fue bien acogido por la comunidad de redes en la reciente conferencia RIPE 87 celebrada en Roma la semana pasada.
Los cortes de suministro son un hecho para los proveedores de Internet. No es un caso de "si" sino de "cuándo". Por suerte, muchos proveedores y países en su conjunto aplican las mejores prácticas actuales para que Internet siga funcionando cuando algo va mal.
Vea la presentación de Indexing Europe's Internet Resilience en RIPE 87.
