Una Internet resistente es crucial para una economía floreciente y el avance de un país. Apoya a las empresas, impulsa la innovación y conecta a las comunidades, formando una columna vertebral para el progreso y la prosperidad de la sociedad moderna.
La resistencia de la red es mucho más que prevenir fallos de la red o la recuperación ante desastres. Reconoce la inevitabilidad de este tipo de incidentes y da prioridad al rápido restablecimiento de los servicios por parte del equipo de operaciones de red, así como a la planificación preventiva y el diseño de sistemas sólidos para mitigar el impacto de las interrupciones.
En la madrugada del 8 de noviembre de 2023, una interrupción generalizada del servicio dejó sin conexión a Internet a los abonados de Optus, el segundo mayor proveedor de telecomunicaciones de Australia. Este extenso corte afectó a las comunicaciones fijas de banda ancha y móviles de más de 10 millones de particulares y 400.000 empresas y servicios, entre los que se incluyen 000 servicios de emergencia, hospitales, bancos y servicios de transporte público.
Los proveedores de operadores móviles virtuales (OMV) de Optus, como Amaysim y Coles mobile, y los usuarios de Optus mobile en el extranjero también se vieron afectados.
Según la figura 1, los servicios empezaron a restablecerse hacia las 13:00 AEDT, pero el restablecimiento completo tardó varias horas, y algunos clientes informaron de problemas continuados hasta bien entrada la tarde.
Por lo que sabemos hasta ahora, un pequeño fallo técnico inició una reacción en cadena que provocó un gran apagón de Internet. La falta de protocolos de resiliencia sólidos y probados agravó el prolongado periodo de recuperación.
Tenemos que analizar juntos este error y aprender de él. Si no lo hacemos, el mismo tipo de problema le ocurrirá a otro, como ya hemos visto en Canadá e Italia en los últimos 18 meses.
Lee:
El corte de Internet en Italia es una tormenta perfecta
Interrupción de Rogers: ¿Qué sabemos después de dos meses?
Asumir la responsabilidad
Los responsables de Optus y del Gobierno evaluaron y comunicaron rápidamente que la interrupción no se debía a un ciberataque. Sin embargo, Optus aún no ha publicado un Análisis de Causa Raíz (RCA) adecuado, una práctica a la que nos hemos acostumbrado debido a las políticas abiertas de empresas como Cloudflare, Fastly y, en el caso de Australia, Telstra y Aussie Broadband. Estas organizaciones establecen una referencia de transparencia al proporcionar rápidamente evaluaciones causales exhaustivas tras las interrupciones del servicio, una expectativa que ahora es estándar en la prestación de servicios y la comunicación con el cliente.
Los periodistas australianos están tratando de llenar este vacío buscando activamente todas las vías disponibles para reunir información relacionada con el incidente, con múltiples artículos de noticias destacando la posible causa del incidente y citando fuentes no oficiales de Optus. Como se cita en el post del Sydney Morning Herald:
Optus dijo que esas actualizaciones se enviaron “tras una actualización rutinaria del software”. La fuente de Optus añadió que la actualización del software se produjo en el Singtel Internet Exchange, no en la red de Optus.
Una vez recibidos, los cambios en la información de enrutamiento se propagaron a través de múltiples capas de la red de Optus y superaron los “niveles de seguridad preestablecidos” en los enrutadores clave que no podían manejarlos, lo que provocó que los enrutadores se desconectaran de la red central de Optus “para protegerse”.
En respuesta a ese artículo de noticias, Jared Mauch (arquitecto de redes en Akamai) publicó en X (antes Twitter), destacando los problemas mencionados en el artículo que están relacionados con el filtro de prefijo máximo del Protocolo de Pasarela Fronteriza (BGP).
¿Qué es un filtro de prefijo máximo BGP?
El filtro BGP Maximum-Prefix es un mecanismo de seguridad para proteger a un router de ser sobrecargado por demasiados prefijos. Cuando el número de prefijos recibidos de un vecino supera el máximo configurado, el filtro puede activar una advertencia y, por defecto, cerrar la sesión BGP.
Este filtro ayuda a evitar la explosión de la tabla de enrutamiento, que puede provocar cortes en la red. Resulta beneficioso para mitigar los efectos de configuraciones erróneas o inestabilidades de enrutamiento que pueden propagar un gran número de prefijos de forma inesperada.
En las principales plataformas de routers, como Cisco, Juniper y Arista, cuando se alcanza el límite máximo de prefijos BGP, el comportamiento por defecto es romper la sesión BGP. La sesión permanecerá inactiva hasta que se borre manualmente. En el caso de los routers Cisco, permanecerá inactiva a menos que se utilice el siguiente comando para restablecer la sesión:
clear ip bgp x.x.x.x command
En su hilo, Jared proporcionó comandos de filtro BGP Maximum-Prefix para routers Cisco y Juniper.
Ejemplo de Cisco (establece el tiempo de reinicio):
– jared mauch (@jaredmauch) 14 de noviembre de 2023
neighbor 10.4.9.5 maximum-prefix 1000 90 restart 60
Ejemplo de Juniper:
family inet prefix-limit maximum 1000 teardown idle-timeout 60
TAMBIÉN para Juniper mira de usar accepted-prefix-limit en su lugar, aunque filtres las rutas contarán
La función “restart” de Cisco o “teardown idle-timeout” de Juniper con un intervalo de tiempo en la configuración del límite máximo de prefijos permite la reconexión automática de una sesión de peering BGP que se cerró previamente tras superar el recuento máximo de prefijos establecido. Esta función garantiza que la sesión se reanude automáticamente, eliminando la necesidad de que los operadores de red intervengan para restablecer la conexión manualmente. Sin embargo, volverá a bajar si la razón inicial por la que bajó sigue existiendo.
Los signos de falta de resiliencia eran evidentes
Si queremos reflexionar sobre el impacto de este importante corte de Internet en Australia, es crucial adoptar una visión holística. Desde un punto de vista técnico, si observamos el perfil de resistencia de Optus, saltan a la vista varios indicios de que se está produciendo una interrupción.
La adopción de buenas normas de funcionamiento de la red y la implantación de tecnologías clave como la Infraestructura de Clave Pública de Recursos (RPKI) muestran la intención de los operadores de redes de hacerlas más resistentes a los cortes de red.
La aplicación de RPKI (o la falta de ella) en esta interrupción no desempeñó ningún papel. Sin embargo, la disminución de la tasa de adopción de RPKI de Optus es un signo preocupante de su resistencia general en comparación con las tendencias de adopción de RPKI de otras redes australianas.
Anunciar rutas con autorizaciones de origen de ruta (ROA) no válidas refleja un descuido a la hora de comprometerse con un marco de enrutamiento seguro. No aplicar la validación de rutas basada en RPKI (Route Origin Validation, o ROV) puede considerarse un fallo en la promoción de la seguridad de la red. Estas son algunas de las acciones recomendadas en la iniciativa MANRS para mejorar la seguridad de las rutas, en la que ya participan grandes operadores australianos, como Telstra y Vocus. Para más detalles, consulte el sitio web de MANRS.
Otra pista fue la decisión de Optus de no participar en el peering local dentro del dinámico panorama de interconexión de Australia, donde la mayoría de los operadores locales realizan peering local. Aunque posiblemente se trate de una decisión empresarial estratégica, pasa por alto la oportunidad de reforzar la resistencia de la red mediante diversos puntos de conexión.
La revisión también debe evaluar la resistencia del mercado
Cualquier reflexión debe evaluar los efectos no intencionados de la consolidación del mercado y el control centralizado, lidiando con las complejidades de calibrar la resistencia de Internet.
A estas alturas, es bien sabido lo profundamente imbricadas que están las tecnologías de Internet en la sociedad, desde el comercio y la sanidad hasta el transporte y los sistemas políticos. Antes de profundizar en este análisis reflexivo, quienes se dedican a las operaciones en Internet deben conocer a fondo los detalles del incidente de Optus.
El 9 de noviembre de 2023, en respuesta al incidente de Optus, el Senado australiano remitió este asunto a la Comisión de Medio Ambiente y Comunicaciones para su investigación, y su primera audiencia pública está fijada para el 17 de noviembre de 2023. Aquí encontrará más información sobre la audiencia.
De acuerdo con la presentación que Internet Society hizo en respuesta al documento de debate sobre la estrategia australiana de ciberseguridad 2023-2030, destacamos algunos puntos importantes para los mandatos de seguridad de las rutas. También queremos volver a hacer hincapié en estos puntos desde la perspectiva de la resistencia de la red.
El ecosistema de Internet evoluciona rápidamente, con la aparición constante de nuevas tecnologías, normas, protocolos, plataformas y servicios. Por ello, puede resultar difícil elaborar y aplicar leyes y reglamentos que estén a la altura de la naturaleza cambiante de Internet. Aunque el Gobierno Federal australiano puede tomar medidas proactivas para mejorar la resistencia de la red, advertimos contra los mandatos prescriptivos generalizados, que podrían tener graves consecuencias no deseadas, porque creemos firmemente que las normas, más que las leyes, gobiernan mejor la industria de Internet.
Las normas son más flexibles y adaptables que las leyes, que pueden ser rígidas y lentas a la hora de cambiar. A medida que evoluciona la industria de Internet, las normas pueden adaptarse rápidamente a las nuevas tecnologías y prácticas. A menudo son elaborados en colaboración por las partes interesadas del sector de Internet, incluidos grupos de expertos en tecnología, organizaciones de la sociedad civil y gobiernos. Este enfoque colaborativo puede promover valores y objetivos compartidos, lo que conduce a una mayor cooperación y confianza entre las partes interesadas. También fomenta la innovación promoviendo las mejores prácticas, alentando la experimentación y promoviendo una cultura de mejora continua.
En el mundo de las operaciones por Internet, los operadores deben aprender de los errores de los demás. Mantener en secreto los fallos operativos no ayuda a nadie. Sólo aumenta la probabilidad de que pequeños problemas ocultos se conviertan en importantes. El gobierno podría animar a los grandes proveedores de red a compartir abiertamente sus cortes para que todos puedan aprender y mejorar juntos.