Gráfico que muestra las palabras sí y no|||

La interrupción de Optus deja al descubierto la resistencia de Internet en Australia

Photo of Aftab Siddiqui
Categorías:

Una Internet resistente es crucial para una economía floreciente y el avance de un país. Apoya a las empresas, impulsa la innovación y conecta a las comunidades, formando una columna vertebral para el progreso y la prosperidad de la sociedad moderna.

La resistencia de la red es mucho más que la mera prevención de fallos de la red o la recuperación de desastres. Reconoce la inevitabilidad de tales incidentes y da prioridad al rápido restablecimiento de los servicios por parte del equipo de operaciones de la red y a la planificación preventiva y el diseño robusto del sistema para mitigar el impacto de las interrupciones.

En la madrugada del 8 de noviembre de 2023, una interrupción generalizada del servicio dejó sin conexión a Internet a los abonados de Optus, el segundo mayor proveedor de telecomunicaciones de Australia. Esta interrupción generalizada afectó a las comunicaciones fijas de banda ancha y móviles de más de 10 millones de particulares y 400.000 empresas y servicios, incluidos 000 servicios de emergencia, hospitales, bancos y servicios de transporte público.

Los proveedores de operadores móviles virtuales (OMV) de Optus, como Amaysim y Coles mobile, y los usuarios de Optus mobile en el extranjero también se vieron afectados.

Según la figura 1, los servicios empezaron a restablecerse hacia las 13:00 AEDT, pero el restablecimiento completo tardó varias horas, y algunos clientes informaron de que los problemas continuaron hasta bien entrada la tarde.

Figura 1 -Tráfico de Internet hacia la red de Optus (AS4804). Fuente: Kentik.

Por lo que sabemos hasta ahora, un pequeño desliz técnico inició una reacción en cadena que desembocó en un gran apagón de Internet. La falta de protocolos de resiliencia sólidos y probados agravó el prolongado periodo de recuperación.

Tenemos que analizar juntos este error y aprender de él. Si no lo hacemos, el mismo tipo de problema le ocurrirá a alguien más, como ya hemos visto en Canadá e Italia en los últimos 18 meses.

Lea:

El apagón de Internet en Italia, una tormenta perfecta

Apagón de Rogers: ¿Qué sabemos después de dos meses?

Asumir la responsabilidad

Optus y los funcionarios del gobierno evaluaron y comunicaron rápidamente que la interrupción no se debía a un ciberataque. Sin embargo, Optus aún no ha publicado un Análisis de Causas Raíz (RCA) adecuado, una práctica a la que nos hemos acostumbrado debido a las políticas abiertas de empresas como Cloudflare, Fastly y, en el caso de Australia, Telstra y Aussie Broadband. Estas organizaciones establecen un punto de referencia para la transparencia al proporcionar rápidamente evaluaciones causales exhaustivas después de las interrupciones del servicio, una expectativa que ahora es estándar en la prestación de servicios y la comunicación con los clientes.

Los periodistas australianos están tratando de llenar este vacío buscando activamente todas las vías disponibles para recabar información relacionada con el incidente, con múltiples artículos de noticias que destacan la posible causa del incidente y citan fuentes no oficiales de Optus. Como se cita en el post del Sydney Morning Herald:

Optus dijo que esas actualizaciones se enviaron "tras una actualización rutinaria del software". La fuente de Optus añadió que la actualización del software se produjo en la central de Internet de Singtel, no en la red de Optus. 

Una vez recibidos, los cambios en la información de encaminamiento se propagaron por múltiples capas de la red de Optus y superaron los "niveles de seguridad preestablecidos" en los principales encaminadores que no podían manejarlos, lo que provocó que éstos se desconectaran de la red central de Optus "para protegerse". 

En respuesta a ese artículo de noticias, Jared Mauch (un arquitecto de redes de Akamai) publicó en X (antes Twitter), destacando los problemas mencionados en el artículo que están relacionados con el filtro de prefijo máximo del Protocolo de Pasarela Fronteriza (BGP).

¿Qué es un filtro de prefijo máximo BGP?

El filtro de prefijo máximo de BGP es un mecanismo de seguridad para proteger a un encaminador de verse desbordado por demasiados prefijos. Cuando el número de prefijos recibidos de un vecino supera el máximo configurado, el filtro puede activar una advertencia y, por defecto, cerrar la sesión BGP. 

Este filtro ayuda a evitar la explosión de la tabla de encaminamiento, que puede provocar cortes en la red. Es beneficioso para mitigar los efectos de configuraciones erróneas o inestabilidades de enrutamiento que pueden propagar un gran número de prefijos de forma inesperada.

En las principales plataformas de enrutadores, como Cisco, Juniper y Arista, cuando se alcanza el límite máximo de prefijos de BGP, el comportamiento por defecto es derribar la sesión BGP. La sesión permanecerá caída hasta que se borre manualmente. En el caso de los routers Cisco, permanecerá caída a menos que se utilice el siguiente comando para restablecer la sesión:

comando clear ip bgp x.x.x.x

En su hilo, Jared proporcionó comandos de filtro de prefijo máximo BGP para enrutadores Cisco y Juniper.

La función "restart" de Cisco o "teardown idle-timeout" de Juniper con un intervalo de tiempo en la configuración del límite máximo de prefijos permite la reconexión automática de una sesión de peering BGP que se cerró previamente tras superar el recuento máximo de prefijos establecido. Esta característica garantiza que la sesión se reanude automáticamente, eliminando la necesidad de que los operadores de red intervengan para restablecer la conexión manualmente. Sin embargo, volverá a caerse si la razón inicial por la que se cayó sigue existiendo.

Los signos de falta de resiliencia eran evidentes

Si queremos reflexionar sobre el impacto de este importante corte de Internet en Australia, es crucial adoptar una visión holística. Desde una perspectiva técnica, si observamos el perfil de resistencia de Optus, se aprecian varios indicios de que se ha producido un apagón.

Internet Society embarked on a mission last year to measure the Internet Resilience Index(IRI), which tracks open-source Internet resiliency metrics to support the development of policies and infrastructure to improve Internet resilience at local, regional, and global levels.

La adopción de buenas normas de funcionamiento de la red y la aplicación de tecnologías clave como la Infraestructura de Clave Pública de Recursos (RPKI) muestran la intención de los operadores de redes de hacer que sus redes sean más resistentes a los cortes de red.

La implementación de RPKI (o la falta de ella) en esta interrupción no desempeñó ningún papel. Sin embargo, la disminución de la tasa de adopción de RPKI por parte de Optus es un signo preocupante de su resistencia general en comparación con las tendencias de adopción de RPKI de otras redes australianas.

Anunciar rutas con autorizaciones de origen de ruta (ROA) no válidas refleja un descuido a la hora de comprometerse con un marco de enrutamiento seguro. No aplicar la validación de rutas basada en RPKI (Route Origin Validation, o ROV) puede considerarse un descuido en la promoción de la seguridad de la red. Estas son algunas de las acciones recomendadas en la iniciativa MANRS para mejorar la seguridad del enrutamiento, en la que ya participan grandes operadores australianos, como Telstra y Vocus. Para más detalles, consulte la página web de MANRS.

Figura 2 - Adopción de RPKI por Optus (AS4804). Fuente: Observatorio MANRS.

Otra pista fue la elección de Optus de no participar en el peering local dentro del dinámico panorama de interconexión de Australia, donde la mayoría de los operadores locales realizan peering local. Aunque posiblemente se tratara de una decisión comercial estratégica, pasa por alto una oportunidad de reforzar la resistencia de la red a través de diversos puntos de conexión.

La revisión también debe evaluar la resistencia del mercado

Cualquier reflexión debe evaluar los efectos no intencionados de la consolidación del mercado y del control centralizado, lidiando con las complejidades de calibrar la resistencia de Internet.

A estas alturas, es bien sabido lo profundamente entretejidas que están las tecnologías de Internet en la sociedad, desde el comercio y la sanidad hasta el transporte y los sistemas políticos. Antes de adentrarse en este análisis reflexivo, quienes se dedican a las operaciones en Internet deben conocer a fondo los detalles del incidente de Optus.

El 9 de noviembre de 2023, en respuesta al incidente de Optus, el Senado australiano remitió este asunto a la Comisión de Medio Ambiente y Comunicaciones para su investigación, y su primera audiencia pública está fijada para el 17 de noviembre de 2023. Puede consultar más detalles sobre dicha audiencia aquí.

De acuerdo con la presentación que Internet Society hizo en respuesta al documento de debate sobre la estrategia australiana de ciberseguridad 2023-2030, destacamos algunos puntos importantes para los mandatos de seguridad de las rutas. Aquí también queremos volver a hacer hincapié en esos puntos desde la perspectiva de la resistencia de la red.

El ecosistema de Internet evoluciona rápidamente, con la aparición constante de nuevas tecnologías, normas, protocolos, plataformas y servicios. Como tal, puede ser un reto desarrollar y aplicar leyes y reglamentos que sigan el ritmo de la naturaleza cambiante de Internet. Aunque existen acciones proactivas que el Gobierno federal australiano puede emprender para mejorar la resistencia de la red, advertimos contra los mandatos prescriptivos generalizados, que podrían tener graves consecuencias no deseadas, porque creemos firmemente que las normas, más que las leyes, gobiernan mejor la industria de Internet.

Las normas son más flexibles y adaptables que las leyes, que pueden ser rígidas y lentas a la hora de cambiar. A medida que evoluciona la industria de Internet, las normas pueden adaptarse rápidamente a las nuevas tecnologías y prácticas. A menudo son desarrolladas en colaboración por las partes interesadas de la industria de Internet, incluidos grupos de expertos en tecnología, organizaciones de la sociedad civil y gobiernos. Este enfoque colaborativo puede promover valores y objetivos compartidos, lo que conduce a una mayor cooperación y confianza entre las partes interesadas. También fomenta la innovación promoviendo las mejores prácticas, alentando la experimentación y fomentando una cultura de mejora continua.

En el mundo de las operaciones por Internet, los operadores deben aprender de los errores de los demás. Mantener en secreto los fallos operativos no ayuda a nadie. Sólo aumenta las posibilidades de que los pequeños problemas ocultos se conviertan en importantes. El gobierno podría animar a los grandes proveedores de red a compartir abiertamente sus fallos para que todos puedan aprender y mejorar juntos.

Etiquetas: