Comparación de la detección de cortes de Internet por lotes y por secuencias
En resumen
- Los métodos de detección de cortes de Internet por lotes y por flujo comparten marcos similares y, por tanto, producen resultados parecidos.
- Del 16% de resultados que no son similares, sólo un sistema tiene la suficiente confianza para informar, por lo que utilizar ambos métodos puede mejorar la visibilidad.
- La detección por lotes es preferible en escenarios de alta precisión, mientras que el flujo continuo proporciona una alternativa fiable y casi en tiempo real.
Muchos sistemas comerciales y académicos de detección de cortes de Internet utilizan Trinocular para evaluar la fiabilidad de la red.
El sistema Trinocular original funcionaba con un procesamiento por lotes cada tres meses, pero en 2016, desplegamos un Trinocular casi en tiempo real que transmite los resultados, portando los nuevos datos a nuestra página web de cortes. Ambos métodos se utilizan ampliamente, ya que los algoritmos que requieren días de datos no pueden ejecutarse en tiempo casi real.
Aunque los dos métodos comparten los mismos algoritmos conceptuales subyacentes, el Dr. John Heidemann, Yuri Pradkin y yo comparamos recientemente su rendimiento para comprender cuánta diferencia marcan los algoritmos específicos.
Nuestro resultado global demostró que el Trinocular por lotes y el Trinocular por flujos coincidieron más del 84% de las veces durante un periodo de ocho días.
Entonces, ¿qué pasa con el otro 16%?
Cuando evaluamos los casos en los que los dos sistemas discrepaban, descubrimos:
- Producen resultados contradictorios el 0,2% de las veces, lo que sugiere que la transmisión es bastante fiable pero no idéntica.
- En casi todos los casos de falta de acuerdo (15% del tiempo total), sólo un sistema tiene la confianza suficiente para informar, y rastreamos esta diferencia hasta los algoritmos a largo plazo.
Seleccionamos dos sucesos de red representativos del conjunto completo de cortes observados durante nuestro periodo de estudio, cada uno de los cuales afectó a más de 20 /24 bloques IP.
La figura 1 muestra las principales diferencias entre la detección por lotes y por streaming. Los paneles superior izquierdo y central muestran los cortes detectados por los sistemas batch y streaming, respectivamente. Cada línea horizontal representa un bloque /24, con segmentos coloreados que indican los periodos de inalcanzabilidad y blancos que indican la alcanzabilidad.
El primer ejemplo, marcado en rosa (br-1 y br-2), muestra dos interrupciones de 5 horas separadas por un periodo de 5,5 horas de alcanzabilidad. Estos eventos comenzaron el 2 de marzo de 2021 a las 7:00 y a las 18:00 en la red de G7 Telecom Ltd (AS263015) en Bahía, Brasil, afectando a 23 bloques /24 a través de cinco prefijos /16.
El segundo ejemplo, en verde (kr), muestra una interrupción de 4 horas que comenzó a las 8:00 del 2 de marzo de 2021 en la red de LG POWERCOMM (AS17858) en Seúl, Corea del Sur, y que afectó a 27 bloques /24 en cinco prefijos /16.
Aunque los paneles superiores parecen similares en general, el streaming (gráfico superior-medio) detecta varias interrupciones prolongadas que están ausentes en el batch, resaltadas como líneas horizontales etiquetadas como (largo-1).
Los paneles inferiores subrayan las diferencias: el inferior izquierdo destaca las interrupciones vistas por lotes pero pasadas por alto por el streaming, mientras que el inferior derecho muestra lo contrario. En ambos, los segmentos coloreados reflejan las discrepancias entre los dos enfoques. En particular:
- Las interrupciones por lotes tienden a empezar antes que las de streaming, la interrupción coreana dura más en streaming que en batch, y una breve interrupción en Brasil alrededor de la hora 38, etiquetada como (br-3), sólo se detecta por streaming.
- Las interrupciones largas etiquetadas como (long-1) son exclusivas del streaming pero no aparecen en la comparación batch-up/streaming-down, lo que indica que nunca fueron detectadas por batch. Estas diferencias son el resultado de compensaciones algorítmicas inherentes al diseño de los sistemas de detección por lotes y por flujo continuo.
En general, el streaming tiende a sobreinformar ligeramente de los cortes, especialmente en los casos en los que la detección por lotes confirma la alcanzabilidad o cuando la información disponible es limitada. En consecuencia, la detección por lotes es preferible en escenarios de alta precisión, mientras que el streaming proporciona una alternativa fiable y casi en tiempo real.
Nuestros hallazgos subrayan la importancia de validar implementaciones independientes, incluso cuando comparten los mismos algoritmos conceptuales subyacentes, para garantizar una detección de cortes robusta y fiable.
Erica Stutz comenzó este trabajo como estudiante en el Swarthmore College mientras colaboraba a distancia con la Universidad del Sur de California. Ahora cursa su doctorado en Biología Computacional e Informática Biomédica en la Universidad de Yale.
Colaboradores: John Heidemann y Yuri Pradkin.
Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.
Foto de NaJina McEnany vía Wikimedia Commons
