Medición de los efectos de la interrupción de CrowdStrike en el tráfico de Internet
En resumen
- La actualización defectuosa de CrowdStrike del año pasado tuvo un impacto matizado en el tráfico de Internet de varias organizaciones y sectores.
- Los patrones de interferencia pueden ocultar los efectos de los fallos de las aplicaciones en los enfoques tradicionales de análisis a nivel de red.
- La identificación y agregación de servicios mediante la información DNS hace visibles estas ondas individuales.
El 19 de julio de 2024, la empresa de ciberseguridad CrowdStrike lanzó una actualización defectuosa para su software de protección de puntos finales. Los efectos fueron diversos y globales, afectando supuestamente a 8 millones de dispositivos Windows e interrumpiendo centros de trabajo, aeropuertos y servicios sanitarios en todo el mundo.
Teniendo en cuenta el efecto generalizado, en el Instituto Max Planck de Informática y Benocs GmbH decidimos estudiar cómo repercutía esta interrupción del nivel de servicio en el tráfico de Internet.
Nuestro análisis demostró que las métricas agregadas tradicionales a nivel de red proporcionan una información limitada sobre las grandes interrupciones a nivel de aplicación, lo que nos obligó a estudiar su efecto en el tráfico a nivel de aplicación.
La interrupción tuvo un impacto mínimo en el tráfico de Internet...
Abordamos este estudio utilizando la lente establecida de las mediciones de red centradas en el tráfico, analizando los efectos del incidente CrowdStrike en el tráfico de Internet de cuatro redes europeas de proveedores de servicios de Internet (ISP) y una red europea de puntos de intercambio de Internet (IXP).
Aunque observamos un descenso notable del tráfico en el ISP-1 -alrededor del 8,5% el día de la interrupción-, no vimos que ocurriera lo mismo en los demás ISP o IXP.
Intentamos ver cualquier efecto utilizando otras métricas a nivel de red, como el tráfico a nivel de puerto, a nivel de subred y el tamaño de los paquetes, pero llegamos a la misma conclusión. Consulte nuestro documento para obtener más detalles.
...pero sí tuvo un impacto significativo en otras aplicaciones y servicios
Teniendo en cuenta lo anterior, utilizamos unametodología diferente para correlacionar los flujos con las trazas a nivel de DNS e inferir los niveles de tráfico por aplicación. Una aplicación consiste en un conjunto de dominios curados manualmente, y teníamos la inferencia del volumen de tráfico para aproximadamente 1.500 aplicaciones preseleccionadas. Por suerte, ¡CrowdStrike era una de ellas!
En la figura 2, vemos a través de todos los ISP y IXP:
- Un aumento del tráfico hacia CrowdStrike en el día que probablemente corresponde al despliegue de la actualización, y
- Una disminución posterior del tráfico de red hacia la aplicación. El volumen de tráfico en el periodo de siete a 28 días después del incidente fue entre un 28,8% (ISP-2) y un 60,5% (IXP-1) inferior al volumen de siete a 28 días antes. Los volúmenes de tráfico semanales de ISP-5 e ISP-2 volvieron a los niveles anteriores a la interrupción unos seis meses después del incidente.
Dado que el incidente afectó a muchos servicios y organizaciones dependientes, también analizamos aplicaciones seleccionadas de las que se informó por sus volúmenes de tráfico y desviaciones de la norma.
La figura 3 muestra el efecto más significativo. Aquí, dos aerolíneas afectadas observaron aumentos de tráfico poco después de la interrupción. Para la aerolínea-1, este efecto es especialmente prevalente el viernes y el lunes. La aerolínea-2 observa un pico considerable en el ISP-4 pero también muestra un aumento del tráfico en el ISP-1.
Las figuras 4 y 5 también muestran el impacto en otras aplicaciones como los medios de comunicación y la seguridad.
Con unos sistemas en Internet cada vez más dependientes unos de otros, un único punto de fallo puede provocar problemas generalizados, como han demostrado las interrupciones de CrowdStrike y las más recientes de Google Cloud. Por ello, la supervisión a nivel de aplicación y las trazas de red enriquecidas semánticamente serán cada vez más cruciales para detectar y analizar este tipo de interrupciones. Lea nuestro documento para obtener más información.
Vaishnavi Raghavajosyula es estudiante de doctorado en el Instituto Max Planck de Informática y becaria de investigación 2025 Pulse IPv6.
Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.
Foto de Smishra1 Vía Wikimedia Commons
