Image of different colored hexagons

Mejorar la resiliencia de Internet con el análisis espacial

Picture of Taveesh Sharma
Guest Author | University of Chicago
Categorias:
Twitter logo
LinkedIn logo
Facebook logo
December 4, 2024
En resumen
  • Los datos obtenidos por crowdsourcing son fundamentales para medir la resiliencia de Internet a nivel local, pero una cobertura limitada puede suponer un reto.
  • El análisis espacial ayuda convirtiendo los datos dispersos en un mapa regional cohesionado del rendimiento de Internet.
  • Un nuevo estudio demuestra que una combinación de técnicas estadísticas puede ofrecer una imagen más clara del rendimiento local de Internet que el uso de los límites del censo o de los barrios de .

Una conexión fiable a Internet se ha convertido en una necesidad para el trabajo a distancia, el aprendizaje en línea y el entretenimiento. Sin embargo, el rendimiento de Internet varía significativamente en función de dónde vivamos. Comprender estas disparidades a nivel local es esencial para garantizar una Internet resistente.

Ookla Speedtest y M-Lab proporcionan valiosos conjuntos de datos crowdsourced para comprender el rendimiento de Internet. Estos conjuntos de datos ofrecen información sobre diversas métricas, como velocidad, latencia, fluctuación y pérdida de paquetes, mediante mediciones iniciadas por los usuarios.

Dependiendo de cuándo y dónde realicen las mediciones los usuarios, la cobertura dista mucho de ser continua. Como resultado, todavía hay que muestrear muchas zonas, y los datos recogidos pueden tener ruido debido a las diferencias entre los dispositivos, las horas del día o las condiciones de la red.

Mapa aéreo que muestra la ubicación de las mediciones de la OOKLA realizadas por los usuarios en el barrio de Hyde Park, en Chicago, EEUU.
Figura 1 – Mapa del barrio de Hyde Park en Chicago, EE.UU., que muestra las mediciones de Ookla realizadas entre enero de 2022 y mayo de 2023.

A pesar de estos retos, los datos obtenidos mediante crowdsourcing pueden ofrecer información sobre los aspectos que Internet necesita mejorar. Además de proporcionar una evaluación del rendimiento de Internet desde diversos puntos de vista, los datos obtenidos mediante crowdsourcing son una alternativa rentable a las campañas de medición especializadas. Sin embargo, para analizarlos eficazmente se requiere una estrategia para rellenar las lagunas de datos y comprender los patrones geográficos.

Los límites basados en mediciones no coinciden con los límites administrativos

El análisis espacial ayuda a superar estos retos convirtiendo los datos dispersos en un mapa regional cohesionado del rendimiento de Internet. Los enfoques tradicionales se basan en límites preexistentes, como los códigos postales, que sólo a veces coinciden con el funcionamiento de la infraestructura de Internet. Por ejemplo, una parte de un barrio puede tener un servicio excelente mientras que otra sufre un rendimiento deficiente. Un simple promedio de los datos puede ocultar estas importantes variaciones.

Nuestra investigación se centra en mejorar las evaluaciones del rendimiento de Internet definiendo límites geográficos de muestreo que reflejen las variaciones reales del rendimiento. Esto es especialmente importante para medir la resistencia de Internet, es decir,la capacidad de una red para mantener el rendimiento durante una demanda elevada, cortes u otras interrupciones. Al identificar las zonas de bajo rendimiento persistente, podemos orientar mejor las inversiones para mejorar la resistencia de la red.

Utilizamos un proceso de tres pasos para determinar límites geográficos significativos.

  1. Interpolamos los datos existentes para estimar el rendimiento de Internet en lugares no muestreados.
  2. Superponemos pequeñas cuadrículas hexagonales para agregar el rendimiento.
  3. Utilizamos técnicas de agrupación para definir límites que representen regiones de rendimiento similar.
Infografía que muestra cómo se visualizan los datos en hexágonos.
Figura 2 – Visión general de nuestro enfoque para construir límites basados en mediciones para una muestra determinada de datos obtenidos mediante crowdsourcing.

Este método nos permite identificar zonas contiguas donde la latencia es especialmente alta (Figura 3). La latencia es crucial para aplicaciones como las videoconferencias, los juegos en línea y la navegación web, lo que la convierte en un fuerte indicador de la calidad general de Internet.

Infografía que compara los límites de las medidas con los límites de los barrios del distrito de Chicago.
Figura 3 – Izquierda: Límites construidos mediante nuestro enfoque de agrupación con el mismo número de unidades (N = 77) que el número de barrios de Chicago (Estados Unidos). Derecha: Mapa de los barrios de Chicago.

En el caso de Chicago, no observamos una correspondencia unívoca entre los límites administrativos y los basados en la medición para el mismo número de unidades espaciales (N = 77). Estos resultados sugieren una diferencia significativa respecto a estudios anteriores que utilizan límites administrativos para agregar datos sobre el rendimiento de Internet. Recomendamos utilizar la interpolación previa y unidades espaciales de alta resolución para los análisis orientados a las políticas.

La interpolación previa reduce la sensibilidad a la elección de unidades espaciales en los resultados agregados

Medimos la similitud entre 17 agrupaciones mensuales de los datos obtenidos mediante crowdsourcing utilizando el Índice de Rand Ajustado (ARI), medido en una escala de -1 a 1, donde:

  • -1 = máximo desacuerdo
  • 0 = asignación aleatoria de límites
  • 1 = acuerdo máximo.

Si realizamos un promedio simple de las mediciones dispersas, la elección de las unidades de agregación geográfica afecta a la similitud de los límites a lo largo del tiempo (Figura 4). Sin embargo, la elección de la unidad de agregación tiene menos impacto cuando promediamos las estimaciones de latencia interpoladas en cuadrícula: los hexágonos diminutos para la agregación dan como resultado una mayor similitud de los límites en ambos casos. Un ARI medio de 0,59 para el promedio interpolado con hexágonos regulares implica una similitud de moderada a sólida, lo que sugiere que nuestro enfoque revela una estructura espacial significativa a través de los ajustes mensuales.

Dos gráficos de dispersión que muestran las medias brutas e interpoladas de diferentes unidades espaciales: hexágonos, límites censales y barrios.
Figura 4 – Similitud entre los límites mensuales a lo largo del tiempo para tres elecciones de unidad espacial. La elección de la unidad espacial importa menos si utilizamos estimaciones de latencia interpoladas.

Lee nuestro documento para obtener más información sobre nuestros métodos y resultados.

Taveesh Sharma es estudiante de tercer año de postgrado en Informática en la Universidad de Chicago.