Nunca es buen momento para quedarse sin conexión a Internet. La mayoría de nosotros puede solucionar los problemas cotidianos de conectividad apagando y volviendo a encender el router o activando y desactivando el modo avión. Pero los problemas más cercanos al núcleo de Internet exigen más esfuerzos técnicos de los ingenieros que supervisan las redes afectadas.
El mes pasado informamos de que un tercio de los usuarios australianos de Internet y telefonía móvil se quedaron sin conexión durante varias horas debido a un pequeño fallo técnico del segundo operador del país.
Dos semanas después, uno de los mayores Puntos de Intercambio de Internet (IXP) del mundo, Amsterdam Internet Exchange (AMS-IX), también sufrió un pequeño fallo técnico durante varias horas, que redujo su tráfico en casi un 80%.
La causa y el efecto de estos cortes fueron muy diferentes, dado que estas dos redes sirven para otros dos fines.
El peering es clave para que Internet siga funcionando
En el primer caso, el proveedor de servicios de Internet (ISP), Optus, atiende directamente las necesidades de Internet y telecomunicaciones de unos 10 millones de clientes particulares e indirectamente atiende al resto de la población australiana mediante operaciones de servicios de emergencia, operaciones bancarias y servicios de administración electrónica.
Si nos fijamos en la Figura 2, el efecto que esto tuvo en la conectividad global a Internet en Australia fue relativamente mínimo (-8%), lo que refleja tanto la diversidad de ISP minoristas en Australia como fuerte cultura de peering, que ocupa el primer lugar en Asia-Pacífico. según los informes nacionales Pulse.
Los problemas de conectividad experimentados por Optus podrían haberse mitigado mediante una mayor interconexión con otras redes locales y IXP. Pero, esto sigue siendo especulativo ya que todavía tenemos que revisar un análisis detallado de la causa raíz del incidente al que se enfrentó Optus.
En el segundo caso, AMS-IX no sirve directamente a usuarios individuales de Internet, pero sí a muchos indirectamente. Los IXP son ubicaciones físicas donde los ISP y las redes de distribución de contenidos (CDN) intercambian tráfico entre sí, reduciendo la latencia y los costes. AMS-IX cuenta con 16 centros de este tipo en los Países Bajos, que dan servicio a unas 870 redes. También tienen sedes en Norteamérica, Sudamérica, África, Oriente Próximo y Asia, por lo que cualquier interrupción puede afectar a todo el mundo.
Aunque AMS-IX es el IXP dominante en los Países Bajos, hay otros, entre ellos NL-IX, que, según un análisis de RIPE Labs (Figura 3), recibió gran parte del tráfico desviado durante la interrupción.
Al final, en los Países Bajos (Figura 4), o en cualquier otro país en el que AMS-IX tenga sedes, no se produjo ninguna caída de la conectividad a Internet debido al corte.
Así es como Internet debería funcionar y funciona en entornos con sólidos ecosistemas de peering. Esta es una de las razones por las que los Países Bajos figuran entre las cinco redes locales de Internet más resistentes del mundo, según el Índice Pulse de Resiliencia de Internet.
La comunicación oportuna es necesaria para reducir el efecto
Un aspecto secundario de estos dos incidentes es la forma en que ambas organizaciones han informado sobre sus respectivas interrupciones.
Optus aún no ha publicado un análisis de la causa raíz (RCA) de su interrupción. Proporcionar este análisis con prontitud ayuda a otras redes a entender el problema y a probar sus propias redes para evitar una interrupción similar y mantener la conectividad para el tráfico redirigido. Este punto no pasa desapercibido para el Gobierno australiano, que está investigando la idoneidad de las comunicaciones de Optus el día del apagón como parte de una investigación en curso.
El Análisis de Causas Raíz (ACR) desempeña un papel fundamental en la comunidad de Internet. Cuando una organización decide no compartir los resultados de su ACR, está privando a otros operadores de valiosas oportunidades de aprendizaje. Esta falta de intercambio de información implica que otros pueden repetir potencialmente los mismos errores. Compartir conocimientos y aprendizaje es crucial en un ecosistema que depende en gran medida de la interconexión. Mediante este enfoque colaborativo, podemos avanzar y mejorar colectivamente la resistencia de Internet. Sólo podremos construir una red mundial más sólida y fiable debatiendo abiertamente y aprendiendo de las experiencias y errores de los demás.
Por otra parte, AMS-IX proporcionó rápidamente una cronología y un análisis detallados de su interrupción, lo que fue bien acogido por la comunidad de redes en la reciente conferencia RIPE 87 celebrada en Roma la semana pasada.
Las interrupciones de servicio son una realidad para los proveedores de Internet. No se trata de si, sino de cuándo. Por suerte, muchos proveedores y países en su conjunto aplican las mejores prácticas actuales para que Internet siga funcionando cuando algo va mal.
Vea la presentación de Indexing Europe’s Internet Resilience en RIPE 87.