Metodología del Índice de Resiliencia de Internet

Introducción

Acerca del índice

Internet desempeña un papel fundamental en la sociedad actual. Lamentablemente, no todos los países están en igualdad de condiciones en materia de infraestructura de Internet resiliente. En muchos países de bajos ingresos las redes y la infraestructura de cables son insuficientes, en otros no existen sistemas de interconexión redundantes. En estos países (o regiones), la probabilidad de que se produzcan apagones de Internet es considerablemente mayor que en otros.

Medir la resiliencia de Internet no es tarea fácil, ya su compleja infraestructura se sustenta en diferentes componentes. Además, el panorama varía considerablemente entre los distintos países, por lo que para poder compararlos de manera objetiva y partiendo de una base común, es necesario contar con un conjunto de métricas que permitan rastrear y registrar los diferentes componentes que contribuyen a la resiliencia de Internet.

Para lograrlo, Internet Society creó el Índice de Resiliencia de Internet (IRI) Pulse. Este documento describe el enfoque utilizado para desarrollar el Índice, la selección de indicadores y las fuentes de datos subyacentes, el sistema de ponderación y los métodos de agregación e imputación utilizados.

Los cuatro pilares de un ecosistema de Internet resiliente

Para comprender la naturaleza multifacética de Internet, el índice se organiza en torno a cuatro pilares principales que, en conjunto, sostienen su buen funcionamiento. Los pilares son:

  1. Infraestructura: La existencia y disponibilidad de infraestructura física que brinda conectividad a Internet.
  2. Desempeño: La capacidad de la red para proporcionar a los usuarios finales un acceso fluido y confiable a los servicios de Internet.
  3. Seguridad: La capacidad de la red para resistir interrupciones voluntarias o involuntarias mediante la adopción de tecnologías de seguridad y prácticas recomendadas.
  4. Preparación del mercado: La capacidad del mercado para autorregularse y ofrecer precios asequibles a los usuarios finales al conservar un mercado diverso y competitivo.

El IRI de Internet Society Pulse se construye utilizando las mejores prácticas existentes de acuerdo con el Manual para la Construcción de Indicadores Compuestos del Centro Común de Investigación de la Comisión Europea y la OCDE. El IRI de Pulse adopta una metodología similar a la de otros índices existentes, como el Índice de Conectividad Móvil de la GSMA, el Índice de Internet Inclusivo de Facebook/EIU y el Índice Web de la Web Foundation.

Fuentes de datos

Selección de indicadores

La construcción de un indicador compuesto robusto requiere una selección cuidadosa de los indicadores subyacentes. Hasta el momento no existen métricas directas y fácilmente disponibles que proporcionen información sobre la resiliencia de Internet de una red o de un país. En el marco del IRI de Internet Society Pulse, los indicadores elegidos reflejan un aspecto específico de la resiliencia que debe cuantificarse. El manual de la OCDE/el Centro Común de Investigación (JRC) ofrece orientación sobre las principales características a considerar a la hora de seleccionar los indicadores. En términos generales, estos deben ser precisos, oportunos y abarcar la mayor cantidad posible de países. Además, el IRI de Internet Society Pulse se basa exclusivamente en indicadores cuantitativos, dejando de lado los indicadores cualitativos como la percepción de la calidad del servicio. Esto asegura la existencia de un conjunto objetivo de métricas que se pueden usar para realizar comparaciones entre países.

Criterios de selección

Para seleccionar los indicadores se utilizaron los siguientes criterios:

  • Relevancia: el indicador debe mostrar un aumento o disminución de la resiliencia de Internet en un país seleccionado.
  • Precisión: el indicador debe estimar o describir correctamente las cantidades o características que pretende medir.
  • Cobertura: los datos deben abarcar el mayor número posible de países, ya que la idea es que el Índice tanga un alcance global.
  • Actualidad: ningún conjunto de datos debe tener más de dos años de antigüedad. Algunos conjuntos de datos deben ser recientes, por ejemplo, los del desempeño o la cobertura de las redes. Otros conjuntos de datos, como el EGDI, no cambian mucho de un año a otro, por lo que se pueden utilizar incluso si tienen uno o dos años de antigüedad.
  • Continuidad: para comparar de forma objetiva el índice a lo largo de los años, es importante trabajar con una lista estable de indicadores que proporcione datos de manera consistente a lo largo del tiempo.

Tipos de indicadores

Para calcular el IRI de Internet Society Pulse se han utilizado tres tipos principales de indicadores:

  1. Indicador directo: un indicador directo es una medida directa de un aspecto de la resiliencia, por ejemplo, el porcentaje de adopción de HTTPS, la latencia, el ancho de banda, etc. Tienen una unidad de medida específica y su valor en bruto puede tener diferentes escalas según lo que se esté midiendo.
  2. Indicador compuesto: un indicador compuesto proporciona una puntuación o índice, que a su vez se deriva de muchas otras variables. Algunos ejemplos son el índice MANRS y el índice EGDI, etc. La escala de un indicador compuesto suele se de 0 a 100.
  3. Indicador proxy: se utiliza un proxy cuando resulta difícil encontrar una métrica específica para medir un aspecto de la resiliencia. Los indicadores proxy pueden ser directos o compuestos. Por ejemplo, el IRI utiliza "Número de IXP" y "Número de centros de datos" como indicadores proxy de la robustez de la infraestructura local.

Orientación de los indicadores

Un indicador puede ser positivo o negativo. En el marco del IRI de Internet Society Pulse, se utilizan ambos tipos, ya sea de forma individual o combinados, para caracterizar los niveles generales de resiliencia. Un ejemplo de indicador positivo es el "Número de servidores seguros de Internet", ya que cuanto mayor sea este número, más segura será la red. Por el contrario, el "% de infecciones de spam" es un indicador negativo, ya que cuanto mayor sea el porcentaje, menos seguras serán las redes subyacentes.

Detalles de algunos indicadores

Desempeño de la red

Los datos de desempeño de la red relacionados con el ancho de banda, la latencia y el jitter se recopilan del Índice Global Ookla Speedtest mensual. Contiene mediciones sobre el desempeño de redes fijas y móviles en todo el mundo. Los valores medianos de descarga, carga, latencia y jitter se calculan por país.

Redundancia de proveedores de subida

La redundancia de proveedores de subida es el número promedio de proveedores de subida IPv4 por Sistema Autónomo (AS) activo en el país. Cuanto mayor sea el número de proveedores de subida por AS, mayor será la resiliencia del ecosistema en general. El conjunto de datos AS-Relationship de CAIDA se utiliza para inferir la relación entre proveedores y clientes.

Eficiencia de peering

El índice de eficiencia de peering de un país se calcula tomando el número de redes locales que tienen relaciones de peering en un IXP de ese país y dividiéndolo entre el número de redes locales activas en ese país (es decir, que aparecen en la tabla de enrutamiento global). PeeringDB proporciona datos sobre los peers en los IXP y el Servicio de Información de Enrutamiento de RIPE proporciona datos sobre las redes activas.

$$PE_c= \frac{\sum P_i}{A}$$

Donde:

$$PE_c = \text{Peering Efficiency of country c}$$ $$P_i = \text{Local ASes peering at IXP i}$$ $$A = \text{Number of active ASes for country c}$$

Concentración del mercado

El IRI Pulse de Internet Society utiliza el Índice Herfindahl-Hirschman (HHI) para calcular la concentración del mercado. Las estadísticas ASPOP de APNIC proporcionan información sobre la cuota de mercado por entidad autónoma (AS) y por país. Agregamos estos datos por organización utilizando as2org+. El HHI tiene un rango de 0 a 10 000, donde 0 significa que no hay concentración (un mercado competitivo) y 10 000 significa que solo hay una ASN, es decir, con una cuota de mercado del 100 %.

$$HHI_c = s_1^2 + s_2^2 + s_3^2 + \; ... \; s_n^2 $$

Donde:

$$HHI_c = \text{HHI of country c}$$ $$s_n = \text{market share (\%) of }ASN_n \; \text{of country c}$$

Diversidad de proveedores de subida

La diversidad de proveedores de subida es una medida importante, ya que indica hasta qué punto las relaciones de una red determinada se concentran en una única red o grupo de redes. A nivel nacional, existen operadores de red específicos que proporcionan acceso internacional y, cuanto mayor sea la diversidad de proveedores de Internet de subida, mayor será la resiliencia del país en términos de dependencia de una única red.

El concepto de dependencia de una red se puede medir por proxy a través de la hegemonía de los AS, que es una puntuación otorgada que cuantifica la centralidad de una red según lo observado por los monitores de BGP. La hegemonía de los AS oscila entre 0 y 1 y puede interpretarse como la fracción promedio de rutas que atraviesan un nodo. Cuanto mayor sea el índice de hegemonía del AS, mayor será la dependencia de esa red específica.

Cada red de un país tiene un índice de hegemonía de los AS basado en su importancia para otras redes dentro del mismo país. Para calcular la diversidad de la distribución de proveedores de subida a nivel nacional, utilizamos nuevamente el HHI. En un escenario perfectamente diverso (HHI = 0), todas las redes tendrían el mismo índice de hegemonía de AS. Un valor de HHI elevado significa que un pequeño número de proveedores domina el mercado de conectividad de subida a Internet.

Lista de indicadores

La Tabla 1 muestra la lista de indicadores, la unidad de medida y la fuente de la información.

Table 1. List of Indicators
Indicator Description Unit Source
Network Coverage Mobile network coverage includes 2G/3G/4G with a composite score provided by the GSMA Score (0 - 100) GSMA
Spectrum Allocation Spectrum allocation (composite score) Score (0 - 100) GSMA
Number of IXPs Number of IXPs per city where city has population > 300,000 for countries with population of <=20,000,000 and city has population > 1,000,000 otherwise. # of IXPs per city PeeringDB
Datacenters Number of datacenters # of datacenter per 10 million population PeeringDB
Mobile / Fixed Latency Median latency observed to the nearest Ookla server ms Ookla
Mobile / Fixed Jitter Median jiter observed to the nearest Ookla server ms Ookla
Mobile / Fixed Upload Speed Median upload throughput measured to the nearest Ookla server Mbps Ookla
Mobile / Fixed Download Speed Median download throughput measured to the nearest Ookla server Mbps Ookla
IPv6 IPv6 enabled end users % of IPv6 adoption Akamai, Facebook, Google, APNIC
HTTPS Pageloads using HTTPS % of page loads using HTTPS Mozilla
DNSSEC Validation Users validating DNSSEC % of users validating DNSSEC APNIC
DNSSEC Adoption Is the ccTLD DNSSEC signed? True or False DNS
MANRS Readiness MANRS score (filtering, global coordination, IRR, RPKI) Score (0 - 100) MANRS Observatory
Upstream Redundancy Average number of upstream IPv4 providers for a countries routed ASNs Score (0 - 100) CAIDA, NRO, RIPEstat
Secure Internet Servers Number of secure Internet servers detected on the country's networks # of secure servers per 1000 population World Bank
Global Cybersecurity Index Global Cybersecurity Index (Composite score) Score (0 - 100) ITU
DDoS Potential Potential DDoS threat a country represents Percentage Cybergreen
Affordability Mobile data and voice low-consumption basket. The basket is based on a monthly usage of a minimum of 70 voice minutes, 20 SMSs and 500 MB of data using at least 3G technology. % of GNI per capita ITU DataHub
Market Concentration Herfindahl-Hirschman Index (HHI) calculates the market concentration based on market share information per network Score (0 - 10000) APNIC, PeeringDB, CAIDA
Upstream Provider Diversity Herfindahl-Hirschman Index (HHI) calculated over the marketshare of transit networks with marketshare greater than 1% Score (0 - 10000) IIJ
Peering Efficiency Ratio of networks peering at IXPs vs routed ASes in a country Percentage PeeringDB, RIPEstat
Domain Count Domains registered by ccTLD # of domains per ccTLD per 1000 population DomainTools
EGDI E-Government Development Index Index (0 - 100) UN

Procesamiento de los datos

Los datos en bruto vienen en diferentes formatos y suelen presentar diversos artefactos o distorsiones: algunos conjuntos de datos siguen distribuciones normales, mientras que otros están sesgados. Antes de realizar cualquier cálculo o agregación, debemos imputar los datos faltantes e identificar y gestionar los valores atípicos.

Datos faltantes

Para imputar los datos faltantes utilizaron las siguientes técnicas:

Table 2. Data imputation
Indicator Technique Details
Affordability Substitution We replace missing values with data from adjacent years
Fixed / Mobile Internet Performance Substitution We substitute mobile data for fixed data and vice-versa where values are otherwise unavailable
Maket Concentration Backward fill Initial gaps in data are filled with first available datapoints
Fixed / Mobile Internet Performance, HTTPS Adoption, Market Concentration, Secure Internet Servers Forward fill Gaps in data are filled with most recent earlier datapoints
IPv6 Substitution We impute a value of 0 where datapoints are otherwise unavailable
Spectrum Allocation, Network Coverage Substitution Replacement by data from a country from the same region with similar GDP per capita

Cambio de escala y tratamiento de valores atípicos

Las escalas que utilizan los indicadores también son diferentes. Por ejemplo, la latencia puede variar entre 0 y 500 ms, mientras que el número de dominios de un ccTLD puede variar entre 0 y 2.000.000. Es importante escalar los datos de manera que los indicadores se puedan comparar entre sí y evitar que el tamaño del país distorsione los resultados (es decir, los países más grandes en términos de población o PIB tienden a tener más redes, IXP, centros de datos, etc.).

Por otro lado, los valores atípicos tienden a distorsionar los datos y, por lo tanto, pueden afectar el cálculo del índice general, especialmente porque el IRI de Internet Society Pulse utiliza el método de normalización mín-máx para escalar los datos (véase la sección sobre normalización mín-máx a continuación). Si un indicador tiene un valor muy elevado o muy bajo, esto se reflejará en el cálculo de la normalización mín-máx.

A los indicadores enumerados como parte del marco se les han aplicado las siguientes transformaciones:

  1. Denominación por tamaño de la población: número de centros de datos, número de dominios
  2. Denominación por número de ciudades: número de IXP
  3. Transformación logarítmica*: servidores  de Internet con medidas de seguridad, desempeño de Internet fija/móvil

*Las transformaciones logarítmicas son útiles para tratar conjuntos de datos sesgados y descartar valores extremos. Además de escalar los datos, también ayuda a gestionar los valores atípicos del conjunto de datos. Una transformación logarítmica preserva las diferencias entre los valores.

Después de escalar y transformar los indicadores anteriores, comprobamos los valores de asimetría y curtosis de los indicadores restantes. Para aquellos con una asimetría > 2 o una curtosis > 3,5 (umbrales generales para la detección de valores atípicos), el IRI utiliza el método RIC (rango intercuartil: Q3 - Q1) para reducir los valores atípicos.  Se aplican las siguientes reglas:

  • Cualquier valor mayor que Q3 + 1,5*RIC se reemplaza por Q3 + 1,5*RIC
  • Cualquier valor menor que Q1 – 1,5*RIC se reemplaza por Q1 – 1,5*RIC 

Normalización mín-máx

Después de limpiar y transformar los datos, el siguiente paso es la normalización. La normalización es importante porque los indicadores se recopilan utilizando diferentes unidades de medida (porcentaje, ms, Mbps, número, etc.). Por lo tanto, es importante pasarlos a una unidad común, por ejemplo, una escala de 0 a 100, donde 100 suele referirse al valor más fuerte y 0 al más débil.

El método elegido fue la normalización mín-máx, una técnica habitual utilizada por múltiples índices conocidos y, a diferencia de otras técnicas como la clasificación y las escalas categóricas, la normalización mín-máx mantiene la coherencia del intervalo entre los diferentes países.

A continuación se presenta la fórmula que utiliza el IRI de Internet Society Pulse para calcular el valor de un indicador según sea positivo o negativo:

$$\text{Indicador positivo:}\,\,\,I_{k,c} = \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$ $$\text{Indicador negativo:}\,\,\,I_{k,c} = 1 - \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$
$$\text{done}\; x\; \text{se refiere al valor en bruto del indicador}\; k\; \text{del Pais} \; c\; \text{and}\;I\;\text{se refiere al valor normalizado.}$$ $$Max / Min(x_k)\;\text{se refiere al mínimo/máximo del indicador}\;k\;\text{para todos los países.}$$donde x se  "k" del país "c" e "I" .

Los indicadores positivos contribuyen a aumentar un índice, mientras que los indicadores negativos contribuyen a disminuirlo, por lo que tomamos el delta:

$$(1 - I_{k,c})$$

Optamos por no utilizar la técnica de estandarización mediante puntuación z (esta técnica estandariza alrededor de la media y varía entre 0 y 1) ya que no todos los indicadores presentaban una distribución normal.

Por último, el IRI solo incluye países para los cuales disponemos de datos (después de la imputación, etc.) para todos los indicadores y para cada trimestre desde el primer trimestre de 2019.

Ponderación y agregación

Asignación de ponderaciones

Hay dos formas principales de agregar los indicadores normalizados para obtener una puntuación final utilizando:

  1. 1. Un esquema de ponderación ad hoc.
  2. 2. Técnicas estadísticas (optimización).

El IRI de Internet Society Pulse utiliza un esquema de ponderación, ya que es la técnica más sencilla de las dos y se basa en la información recopilada por Internet Society mediante encuestas y debates con expertos.

Durante el proceso de ponderación, también se consideró la importancia del indicador usando un enfoque de ciclo de vida. Por ejemplo, para el pilar de "Desempeño", se asignaron las siguientes ponderaciones a las dimensiones subyacentes: Redes fijas (40 %) y redes móviles (60 %). Se otorgó mayor peso a las redes móviles, ya que a nivel global son las más utilizadas para acceder a Internet.

En el marco del IRI de Internet Society Pulse, los indicadores se agrupan en diferentes dimensiones, y estas a su vez en pilares, que proporcionan sus propias medidas cuantitativas de un aspecto específico de la resiliencia de Internet. La tabla a continuación muestra con los indicadores, las dimensiones y los pilares y sus ponderaciones asociadas, utilizados para el cálculo del IRI de Internet Society Pulse.

Las ponderaciones se revisan anualmente.

Table 3. Indicators, dimensions and pillars and associated weights
Pillar Weight (%) Dimension Weight (%) Indicator Weight (%)
Infrastructure 25 Mobile connectivity 50 Network Coverage 70
Spectrum Allocation 30
Enabling infrastructure 50 Number of IXPs 50
Datacenters 50
Performance 25 Fixed networks 40 Latency 20
Upload 30
Download 30
Jitter 20
Mobile networks 60 Latency 20
Upload 30
Download 30
Jitter 20
Enabling technologies and security 25 Enabling technologies 20 IPv6 30
HTTPS 70
DNS ecosystem 30 DNSSEC Validation 50
DNSSEC Adoption 50
Routing hygiene 30 MANRS Readiness 50
Upstream Redundancy 50
Security threat 20 Secure Internet Servers 30
Global Cybersecurity Index 40
DDoS Potential 30
Local ecosystem & Market readiness 25 Market structure 50 Affordability 40
Market concentration 30
Upstream provider diversity 30
Traffic localization 50 Peering efficiency 40
Domain count 30
EGDI 30

Agregación

El IRI de Internet Society Pulse utiliza una fórmula de suma ponderada en cada nivel (indicador, dimensión y pilar) para agregar los datos y obtener una puntuación compuesta. Se utilizó la siguiente fórmula:

$$IRI_c = \sum_i^n(w_i \cdot P_{i,c})$$

Donde:

$$P_{i,c}=\sum_i^n(w_i \cdot D_{i,c})$$

Y donde:

$$D_{i,c}=\sum_i^n(w_i \cdot I_{i,c})$$

En términos simples, el índice final del país "c" es la suma de los pilares ponderados "P". Un pilar es la suma ponderada de las dimensiones subyacentes "D" y una dimensión es la suma ponderada de los indicadores "I", todos del país "c".

Comentarios

Si tiene alguna pregunta, comentario o sugerencia sobre el IRI de Internet Society Pulse, comuníquese con el equipo de Internet Society Pulse ([email protected]). 

Agradecimientos

Internet Society agradece a los siguientes colaboradores por sus valiosos aportes a la creación del Índice de Resiliencia de Internet (IRI) de Internet Society Pulse: Amreesh Phokeer (Internet Society), Kevin Chege (Internet Society), Assane Gueye (Universidad Carnegie Mellon-África), Josiah Chavula (Universidad de Ciudad del Cabo) y Ahmed Elmokashfi (Simula Research Lab).