Foto de las pantallas azules de la muerte en el aeropuerto LGA por el apagón de CrowdStrike 2024 de julio.|||||

Medición de los efectos de la interrupción de CrowdStrike en el tráfico de Internet

Photo of Vaishnavi Raghavajosyula
Categorías:

En resumen

  • La actualización defectuosa de CrowdStrike del año pasado tuvo un impacto matizado en el tráfico de Internet de varias organizaciones y sectores.
  • Los patrones de interferencia pueden ocultar los efectos de los fallos de las aplicaciones en los enfoques tradicionales de análisis a nivel de red.
  • La identificación y agregación de servicios mediante la información DNS hace visibles estas ondas individuales.

El 19 de julio de 2024, la empresa de ciberseguridad CrowdStrike lanzó una actualización defectuosa para su software de protección de puntos finales. Los efectos fueron diversos y globales, afectando supuestamente a 8 millones de dispositivos Windows e interrumpiendo centros de trabajo, aeropuertos y servicios sanitarios en todo el mundo.

Leer: La interrupción tecnológica mundial demuestra la necesidad de resiliencia en los sistemas de software

Teniendo en cuenta el efecto generalizado, en el Instituto Max Planck de Informática y Benocs GmbH decidimos estudiar cómo repercutía esta interrupción del nivel de servicio en el tráfico de Internet.

Nuestro análisis demostró que las métricas agregadas tradicionales a nivel de red proporcionan una información limitada sobre las grandes interrupciones a nivel de aplicación, lo que nos obligó a estudiar su efecto en el tráfico a nivel de aplicación.

La interrupción tuvo un impacto mínimo en el tráfico de Internet...

Abordamos este estudio utilizando la lente establecida de las mediciones de red centradas en el tráfico, analizando los efectos del incidente CrowdStrike en el tráfico de Internet de cuatro redes europeas de proveedores de servicios de Internet (ISP) y una red europea de puntos de intercambio de Internet (IXP).

Aunque observamos un descenso notable del tráfico en el ISP-1 -alrededor del 8,5% el día de la interrupción-, no vimos que ocurriera lo mismo en los demás ISP o IXP.

Gráficos lineales de series temporales que muestran las interrupciones del tráfico ISP e IXP la semana del incidente.
Figura 1 - Volúmenes totales de tráfico de nuestros 5 puntos de observación, normalizados por el tráfico máximo observado. El área azul muestra el intervalo de confianza del 99,7% de 10 semanas antes del incidente. La línea azul muestra el tráfico de la semana del incidente. Las barras muestran la diferencia relativa de tráfico entre la semana del incidente y el tráfico medio a esa hora del día durante las 10 semanas.

Intentamos ver cualquier efecto utilizando otras métricas a nivel de red, como el tráfico a nivel de puerto, a nivel de subred y el tamaño de los paquetes, pero llegamos a la misma conclusión. Consulte nuestro documento para obtener más detalles.

...pero sí tuvo un impacto significativo en otras aplicaciones y servicios

Teniendo en cuenta lo anterior, utilizamos unametodología diferente para correlacionar los flujos con las trazas a nivel de DNS e inferir los niveles de tráfico por aplicación. Una aplicación consiste en un conjunto de dominios curados manualmente, y teníamos la inferencia del volumen de tráfico para aproximadamente 1.500 aplicaciones preseleccionadas. Por suerte, ¡CrowdStrike era una de ellas! 

En la figura 2, vemos a través de todos los ISP y IXP:

  • Un aumento del tráfico hacia CrowdStrike en el día que probablemente corresponde al despliegue de la actualización, y 
  • Una disminución posterior del tráfico de red hacia la aplicación. El volumen de tráfico en el periodo de siete a 28 días después del incidente fue entre un 28,8% (ISP-2) y un 60,5% (IXP-1) inferior al volumen de siete a 28 días antes. Los volúmenes de tráfico semanales de ISP-5 e ISP-2 volvieron a los niveles anteriores a la interrupción unos seis meses después del incidente.
Gráficos lineales de series temporales que muestran una disminución del volumen de tráfico al sitio web de Crowdstrike tras el incidente.
Figura 2 - Volumen de tráfico normalizado para la aplicación CrowdStrike. Se observa una disminución del volumen de tráfico tras el incidente.

Dado que el incidente afectó a muchos servicios y organizaciones dependientes, también analizamos aplicaciones seleccionadas de las que se informó por sus volúmenes de tráfico y desviaciones de la norma.

La figura 3 muestra el efecto más significativo. Aquí, dos aerolíneas afectadas observaron aumentos de tráfico poco después de la interrupción. Para la aerolínea-1, este efecto es especialmente prevalente el viernes y el lunes. La aerolínea-2 observa un pico considerable en el ISP-4 pero también muestra un aumento del tráfico en el ISP-1.

Gráficos lineales de series temporales que muestran las perturbaciones del tráfico de las compañías aéreas
Figura 3 - La mediana del tráfico normalizado se representa con la línea azul, mientras que la línea roja muestra el tráfico de la semana de interrupción. La mediana se calcula para la misma hora del día a lo largo de las 10 semanas anteriores al suceso. La banda azul alrededor de la mediana indica un intervalo de confianza del 99,7% para el periodo. Las barras muestran la diferencia entre la semana de interrupción y la mediana, con barras rojas (azules) que indican menos (más) tráfico en la semana de interrupción.

Las figuras 4 y 5 también muestran el impacto en otras aplicaciones como los medios de comunicación y la seguridad.

Gráficos lineales de series temporales que muestran las interrupciones del tráfico de las empresas de medios de comunicación
Figura 4 - Una empresa de medios de comunicación afectada afirmativamente ve un aumento del tráfico de 14,0x en el ISP-1 (7,4x para el ISP-4) a partir del viernes sobre las 8 de la mañana y hasta las 4 de la tarde (8 de la tarde para el ISP-4).
Gráficos lineales de series temporales que muestran las perturbaciones en el tráfico de las empresas de ciberseguridad
Figura 5 - Observamos daños colaterales para varias empresas de ciberseguridad, Security-1 y Security-2. El tráfico se mantiene inusualmente bajo tras la interrupción, volviendo a niveles normales sólo el lunes. Este efecto puede insinuar poblaciones de clientes similares para las empresas afectadas y CrowdStrike.

Con unos sistemas en Internet cada vez más dependientes unos de otros, un único punto de fallo puede provocar problemas generalizados, como han demostrado las interrupciones de CrowdStrike y las más recientes de Google Cloud. Por ello, la supervisión a nivel de aplicación y las trazas de red enriquecidas semánticamente serán cada vez más cruciales para detectar y analizar este tipo de interrupciones. Lea nuestro documento para obtener más información.

Vaishnavi Raghavajosyula es estudiante de doctorado en el Instituto Max Planck de Informática y becaria de investigación 2025 Pulse IPv6.

Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.


Foto de Smishra1 Vía Wikimedia Commons

Etiquetas: