Metodología del Índice de Resistencia a Internet
Introducción
Acerca del índice
Internet desempeña un papel fundamental en la sociedad actual. Por desgracia, no todos los países están en igualdad de condiciones en lo que respecta a una infraestructura de Internet resistente. Muchos países de renta baja tienen redes e infraestructuras de cable insuficientemente dotadas, o carecen de sistemas de interconexión redundantes. En estos países (o regiones), la probabilidad de que se produzcan cortes de Internet es mucho mayor que en otros países.
Medir la capacidad de recuperación de Internet no es una tarea fácil, ya que son varios los componentes que sustentan la compleja infraestructura de Internet. Además, el panorama de Internet varía considerablemente en todo el mundo y para poder comparar objetivamente a los países -en un terreno común- es necesario contar con un conjunto objetivo de métricas que rastreen y registren los distintos componentes que contribuyen a la resistencia de Internet.
Para llevar a cabo esta tarea, la Internet Society creó el Índice Pulse de Resiliencia de Internet (IRI). Este documento resume el enfoque utilizado para construir el Índice, la selección de indicadores y las fuentes de datos subyacentes, el esquema de ponderación y los métodos de agregación e imputación utilizados.
Los cuatro pilares de un ecosistema de Internet resistente
Para comprender la naturaleza polifacética de Internet, el Índice se basa en cuatro pilares principales, que juntos contribuyen al buen funcionamiento de Internet. Los pilares son:
- Infraestructura: La existencia y disponibilidad de la infraestructura física que proporciona la conectividad a Internet.
- Rendimiento: La capacidad de la red para proporcionar a los usuarios finales un acceso fluido y fiable a los servicios de Internet.
- Seguridad: La capacidad de la red para resistir interrupciones intencionadas o no intencionadas mediante la adopción de tecnologías de seguridad y mejores prácticas.
- Preparación del mercado: la capacidad del mercado para autorregularse y proporcionar servicios asequibles a los usuarios finales como parte de un mercado diverso y competitivo.
El IRI Pulse de la Sociedad de Internet se construye utilizando las mejores prácticas existentes según el Manual para la elaboración de indicadores compuestos del Centro Común de Investigación de la Comisión Europea y la OCDE. El Pulse IRI adopta una metodología similar a la de otros índices existentes como el Índice de conectividad móvil de la GSMA, el Índice de inclusión en Internet de Facebook/EIU y el Índice Web de la Web Foundation.
Abastecimiento de datos
Selección de indicadores
La creación de un indicador compuesto sólido requiere una cuidadosa selección de los indicadores subyacentes. Hasta la fecha, no existen métricas directas y fácilmente disponibles que proporcionen información sobre la resiliencia de Internet de una red o un país. En el marco del IRI de Internet Society Pulse, los indicadores seleccionados reflejan un aspecto específico de la resiliencia que es necesario cuantificar. El manual de la OCDE y el JRC ofrece algunas orientaciones sobre las principales características que deben tenerse en cuenta a la hora de seleccionar los indicadores. En esencia, deben ser precisos, oportunos y abarcar el mayor número de países posible. Además, el IRI de Internet Society Pulse se basa exclusivamente en indicadores cuantitativos frente a los cualitativos, como la percepción de la calidad del servicio. Con ello se pretende garantizar la existencia de un conjunto objetivo de métricas que puedan utilizarse para realizar comparaciones entre países.
Criterios de selección
Para seleccionar los indicadores se utilizaron los siguientes criterios:
- Relevancia: El indicador debe servir para mostrar un aumento o una disminución de la resistencia de Internet en un país seleccionado.
- Precisión: El indicador debe estimar o describir correctamente las cantidades o características que están diseñados para medir.
- Cobertura: Los datos deben abarcar el mayor número posible de países, ya que el Índice pretende ser un índice mundial.
- Frescura: Cualquier conjunto de datos debe tener como máximo dos años de antigüedad. Algunos conjuntos de datos, como los de rendimiento o cobertura de red, deben ser recientes. Otros conjuntos de datos, como EGDI, no cambian mucho de un año a otro, por lo que es aceptable utilizarlos aunque tengan uno o dos años.
- Continuidad: Para comparar objetivamente el índice a lo largo de los años, es importante trabajar con una lista estable de indicadores, que proporcione datos de forma constante a lo largo del tiempo.
Tipos de indicadores
Existen tres tipos principales de indicadores que se han utilizado para calcular el IRI de Internet Society Pulse:
- Indicador directo: Un indicador directo es una medida directa de un aspecto de la resiliencia, por ejemplo, el porcentaje de adopción de HTTPS, la latencia, el ancho de banda, etc. Tienen una unidad de medida específica, y el valor bruto puede estar en diferentes escalas dependiendo de lo que se esté midiendo.
- Indicador compuesto: Un indicador compuesto proporciona una puntuación, que a su vez se ha derivado de otras múltiples variables. Algunos ejemplos son la puntuación MANRS, el índice EGDI, etc. La escala de un indicador compuesto suele estar comprendida entre 0 y 100.
- Indicador indirecto: Un indicador indirecto se utiliza cuando es difícil encontrar una métrica específica para medir un aspecto de la resiliencia. Los proxies pueden ser indicadores directos o compuestos. Por ejemplo, el IRI utiliza el "Número de IXP" y el "Número de centros de datos" como indicadores proxy de la solidez de la infraestructura local.
Orientación de los indicadores
Un indicador puede ser positivo o negativo. En el marco del IRI de Internet Society Pulse, tanto los indicadores positivos como los negativos se utilizan individualmente o en combinación con otros indicadores para caracterizar los niveles generales de resiliencia. Un ejemplo de indicador positivo es el "Número de servidores de Internet seguros", ya que cuanto mayor sea el número, más segura será la red. Por el contrario, el "% de infecciones por spam" es un indicador negativo, ya que cuanto mayor sea el porcentaje, menos seguras serán las redes subyacentes.
Detalles de algunos indicadores
Rendimiento de la red
Los datos sobre el rendimiento de la red relativos al ancho de banda, la latencia y la fluctuación de fase se recopilan a partir del Índice Global Speedtest mensual de Ookla. Contiene mediciones sobre el rendimiento de las redes fijas y móviles en todo el mundo. Los valores medios de descarga, carga, latencia y fluctuación se calculan por países.
Redundancia ascendente
La redundancia ascendente es el número medio de proveedores ascendentes IPv4 por sistemas autónomos (SA) activos en el país. Cuanto mayor sea el número de proveedores upstream por AS, más resistente será el ecosistema global. El conjunto de datos CAIDA AS-Relationship se utiliza para inferir la relación proveedor-cliente.
Eficacia del peering
La puntuación de la eficiencia de peering de un país se calcula tomando el número de redes locales que hacen peering en los IXP de ese país y dividiéndolo por el número de redes locales y activas (vistas en la tabla de enrutamiento global) de ese país. PeeringDB proporciona datos sobre los IXP pares y RIPEstat sobre las redes activas.
$$PE_c= \frac{\suma P_i}{A}$$Dónde:
$$PE_c = \text{Eficiencia de peering del país c}$$ $$P_i = \text{Ases locales que hacen peering en el IXP i}$$ $$A = \text{Número de ASes activos para el país c}$$Concentración del mercado
El IRI de Internet Society Pulse utiliza el índice Herfindahl-Hirschman (HHI) para calcular la puntuación de concentración del mercado. Las estadísticas ASPOP de APNIC proporcionan información sobre la cuota de mercado por AS y por país. Agregamos estos datos por organización utilizando as2org+. El HHI tiene un rango entre 0 y 10.000, donde 0 significa que no hay concentración (un mercado competitivo) y 10.000 significa que sólo hay una ASN, es decir, con una cuota de mercado del 100%.
$$HHI_c = s_1^2 + s_2^2 + s_3^2 + \; ... \; s_n^2 $$Dónde:
$$HHI_c = \text{HHI del país c}$$ $$s_n = \text{cuota de mercado (\%) de }ASN_n \text{del país c}$$Diversidad de proveedores
La diversidad de proveedores ascendentes es un elemento importante a medir, ya que indica hasta qué punto las relaciones de una red determinada se concentran en una sola red o grupo de redes. A nivel nacional, existen operadores de red específicos que proporcionan acceso internacional y cuanto más diverso sea el número de proveedores de Internet ascendentes, más resistente será el país en términos de dependencia de la red.
La noción de dependencia de la red puede aproximarse utilizando la hegemonía de AS, que es una puntuación que se da a una red para cuantificar su centralidad observada por los monitores BGP. La hegemonía del AS oscila entre 0 y 1 y puede interpretarse como la fracción media de rutas que cruzan un nodo. Cuanto mayor sea la puntuación de la hegemonía del AS, mayor será la dependencia de esa red específica.
Cada red de un país tiene una puntuación de hegemonía de AS basada en lo central que es para otras redes del mismo país. Para calcular la diversidad de la distribución de proveedores ascendentes a nivel de país, volvemos a utilizar el IHH. En un escenario de diversidad perfecta (IHH = 0), todas las redes tendrían la misma puntuación de hegemonía de AS. Un valor alto de HHI significa que un pequeño número de proveedores domina el mercado de la conectividad ascendente a Internet.
Lista de indicadores
La tabla 1 muestra la lista de indicadores, la unidad de medida y la fuente de información.
| Indicator | Description | Unit | Source |
|---|---|---|---|
| Network Coverage | Mobile network coverage includes 2G/3G/4G with a composite score provided by the GSMA | Score (0 - 100) | GSMA |
| Spectrum Allocation | Spectrum allocation (composite score) | Score (0 - 100) | GSMA |
| Number of IXPs | Number of IXPs per city where city has population > 300,000 for countries with population of <=20,000,000 and city has population > 1,000,000 otherwise. | # of IXPs per city | PeeringDB |
| Datacenters | Number of datacenters | # of datacenter per 10 million population | PeeringDB |
| Mobile / Fixed Latency | Median latency observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Jitter | Median jiter observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Upload Speed | Median upload throughput measured to the nearest Ookla server | Mbps | Ookla |
| Mobile / Fixed Download Speed | Median download throughput measured to the nearest Ookla server | Mbps | Ookla |
| IPv6 | IPv6 enabled end users | % of IPv6 adoption | Akamai, Facebook, Google, APNIC |
| HTTPS | Pageloads using HTTPS | % of page loads using HTTPS | Mozilla |
| DNSSEC Validation | Users validating DNSSEC | % of users validating DNSSEC | APNIC |
| DNSSEC Adoption | Is the ccTLD DNSSEC signed? | True or False | DNS |
| MANRS Readiness | MANRS score (filtering, global coordination, IRR, RPKI) | Score (0 - 100) | MANRS Observatory |
| Upstream Redundancy | Average number of upstream IPv4 providers for a countries routed ASNs | Score (0 - 100) | CAIDA, NRO, RIPEstat |
| Secure Internet Servers | Number of secure Internet servers detected on the country's networks | # of secure servers per 1000 population | World Bank |
| Global Cybersecurity Index | Global Cybersecurity Index (Composite score) | Score (0 - 100) | ITU |
| DDoS Potential | Potential DDoS threat a country represents | Percentage | Cybergreen |
| Affordability | Mobile broadband data and voice low-consumption basket. The basket is based on a monthly usage of a minimum of 70 voice minutes, 20 SMSs and 1 GB of data using at least 3G technology. | % of GNI per capita | ITU DataHub |
| Market Concentration | Herfindahl-Hirschman Index (HHI) calculates the market concentration based on market share information per network | Score (0 - 10000) | APNIC, PeeringDB, CAIDA |
| Upstream Provider Diversity | Herfindahl-Hirschman Index (HHI) calculated over the marketshare of transit networks with marketshare greater than 1% | Score (0 - 10000) | IIJ |
| Peering Efficiency | Ratio of networks peering at IXPs vs routed ASes in a country | Percentage | PeeringDB, RIPEstat |
| Domain Count | Domains registered by ccTLD | # of domains per ccTLD per 1000 population | DomainTools |
| EGDI | E-Government Development Index | Index (0 - 100) | UN |
Procesamiento de datos
Los datos brutos se presentan en diferentes formas y suelen venir con varios artefactos: algunos conjuntos de datos tienen una distribución normal, mientras que otros están sesgados. Antes de realizar cualquier cálculo o agregación necesitamos imputar los datos que faltan e identificar y manejar los valores atípicos.
Datos que faltan
Se han utilizado las siguientes técnicas para imputar los datos que faltan:
| Indicator | Technique | Details |
|---|---|---|
| Affordability | Substitution | We replace missing values with data from adjacent years |
| Fixed / Mobile Internet Performance | Substitution | We substitute mobile data for fixed data and vice-versa where values are otherwise unavailable |
| Maket Concentration | Backward fill | Initial gaps in data are filled with first available datapoints |
| Fixed / Mobile Internet Performance, HTTPS Adoption, Market Concentration, Secure Internet Servers | Forward fill | Gaps in data are filled with most recent earlier datapoints |
| IPv6 | Substitution | We impute a value of 0 where datapoints are otherwise unavailable |
| Spectrum Allocation, Network Coverage | Substitution | Replacement by data from a country from the same region with similar GDP per capita |
Reescalado y tratamiento de valores atípicos
Las escalas utilizadas por los indicadores también son diferentes, por ejemplo, la latencia puede oscilar entre 0 y 500 ms, mientras que el recuento de dominios para un ccTLD puede oscilar entre 0 y 2.000.000. Es importante escalar los datos para que los indicadores sean comparables entre sí y evitar el problema del tamaño del país (es decir, los países más grandes en términos de población o PIB tienden a tener más redes, IXP, centros de datos, etc.).
Por otro lado, los valores atípicos tienen tendencia a sesgar los datos y, por tanto, pueden influir en el cálculo de la puntuación global, especialmente porque el IRI de Pulso de Internet Society utiliza el método de normalización mín-máx para escalar los datos (véase la sección sobre Normalización mín-máx más adelante). Si un indicador tiene un valor muy alto o muy bajo, esto se reflejará en el cálculo mín-máx.
Se han aplicado las siguientes transformaciones a los indicadores enumerados como parte del marco:
- Denominación por tamaño de población: Número de centros de datos, Número de dominios
- Denominación por número de ciudades: Número de IXP
- Transformación de registros*: Servidores de Internet seguros, rendimiento de Internet fijo/móvil
* Una transformación logarítmica es útil para tratar conjuntos de datos sesgados y descartar valores extremos. No sólo escala los datos, sino que tiene la ventaja de tratar los valores atípicos del conjunto de datos. La transformación logarítmica conserva las diferencias entre los valores.
Tras escalar y transformar los indicadores anteriores, realizamos una comprobación de los valores de asimetría y curtosis de los indicadores restantes. Para los que tienen una asimetría > 2 o una curtosis > 3,5 (umbrales generales para la detección de valores atípicos), el IRI hace uso del método IQR (Interquartile Range: Q3 - Q1) para recortar los valores atípicos. Se aplican las siguientes reglas:
- Cualquier valor superior a Q3 + 1,5*IQR se sustituye por Q3 + 1,5*IQR
- Cualquier valor inferior a Q1 - 1,5*IQR se sustituye por Q1 - 1,5*IQR
Normalización Mín-Máx
El siguiente paso, después de limpiar y transformar los datos, es la normalización. La normalización es importante porque los indicadores se recogen utilizando diferentes unidades de medida (porcentaje, ms, Mbps, recuento, etc.). Por lo tanto, es importante volver a basarlos en una unidad común, como una escala de 0 a 100, en la que 100 suele referirse al valor más fuerte y 0 al más débil.
El método elegido fue la normalización min-max, que es una técnica común utilizada por múltiples índices conocidos y que, a diferencia de otras técnicas como la clasificación y las escalas categóricas, min-max mantiene la coherencia del intervalo entre los países.
A continuación encontrará la fórmula que utiliza Internet Society Pulse IRI para calcular el valor de un indicador en función de si es positivo o negativo:
$$\text{Indicador positivo:},\,\ I_{k,c} = \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$ $$\text{Indicador negativo:},\,\ I_{k,c} = 1 - \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$ $$\text{donde}; x;\text{se refiere al valor bruto del indicador}; k;\text{del país} \; c\; \text{and}\;I\;\text{refers to the normalized value.}$$ $$Max / Min(x_k)\;\text{refers to the min/max of indicator}\;k\;\text{for all countries.}$$Los indicadores positivos contribuyen a aumentar un índice, los indicadores negativos contribuyen a disminuir la puntuación, por eso tomamos el delta:
$$(1 - I_{k,c})$$Optamos por no utilizar la técnica de normalización de puntuación z (esta técnica normaliza en torno al valor medio y oscila entre 0 y 1) ya que no todos los indicadores seguían una distribución normal.
Por último, el IRI sólo incluye los países de los que disponemos de datos (tras imputación, etc.) para todos los indicadores y para cada trimestre desde el primer trimestre de 2019.
Ponderación y agregación
Asignación de pesos
Existen dos formas principales de agregar los indicadores normalizados en una puntuación final mediante:
- Un esquema de ponderación ad hoc.
- Técnicas estadísticas (optimización).
El IRI de pulso de la Internet Society utiliza un esquema de ponderación, ya que es la técnica más sencilla de las dos y se basa en las aportaciones que la Internet Society recopiló a través de encuestas y debates con expertos en la materia.
Durante el proceso de ponderación, también se consideró la importancia del indicador utilizando un enfoque de ciclo de vida. Por ejemplo, para el pilar Rendimiento, se asignaron las siguientes ponderaciones a las dimensiones subyacentes: Redes fijas (40%) y Redes móviles (60%). Se dio mayor importancia a las redes móviles, ya que son las más utilizadas para acceder a Internet desde una perspectiva global.
En el marco del IRI de Internet Society Pulse, los indicadores se agrupan en diferentes dimensiones, y las dimensiones en pilares, que proporcionan sus propias medidas cuantitativas de un aspecto específico de la resiliencia de Internet. A continuación se muestra una tabla con los indicadores, dimensiones y pilares y sus ponderaciones asociadas, utilizados para el cálculo del IRI de Internet Society Pulse.
Las ponderaciones se revisan anualmente.
| Pillar | Weight (%) | Dimension | Weight (%) | Indicator | Weight (%) |
|---|---|---|---|---|---|
| Infrastructure | 25 | Mobile connectivity | 50 | Network Coverage | 70 |
| Spectrum Allocation | 30 | ||||
| Enabling infrastructure | 50 | Number of IXPs | 50 | ||
| Datacenters | 50 | ||||
| Performance | 25 | Fixed networks | 40 | Latency | 20 |
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Mobile networks | 60 | Latency | 20 | ||
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Enabling technologies and security | 25 | Enabling technologies | 20 | IPv6 | 30 |
| HTTPS | 70 | ||||
| DNS ecosystem | 30 | DNSSEC Validation | 50 | ||
| DNSSEC Adoption | 50 | ||||
| Routing hygiene | 30 | MANRS Readiness | 50 | ||
| Upstream Redundancy | 50 | ||||
| Security threat | 20 | Secure Internet Servers | 30 | ||
| Global Cybersecurity Index | 40 | ||||
| DDoS Potential | 30 | ||||
| Local ecosystem & Market readiness | 25 | Market structure | 50 | Affordability | 40 |
| Market concentration | 30 | ||||
| Upstream provider diversity | 30 | ||||
| Traffic localization | 50 | Peering efficiency | 40 | ||
| Domain count | 30 | ||||
| EGDI | 30 |
Agregación
El IRI de Internet Society Pulse utiliza una fórmula de suma ponderada en cada nivel (indicador, dimensión y pilar) para agregar los datos en una puntuación compuesta. Se utilizó la siguiente fórmula:
$$IRI_c = \sum_i^n(w_i \cdot P_{i,c})$$Dónde:
$$P_{i,c}=\suma_i^n(w_i \cdot D_{i,c})$$Y dónde:
$$D_{i,c}=\suma_i^n(w_i \cdot I_{i,c})$$En términos sencillos, el índice final 𝐼𝑅𝐼 del país "c" es la suma de los pilares ponderados "P". Un pilar es la suma ponderada de las dimensiones subyacentes "D" y una dimensión es la suma ponderada de los indicadores "I", todos ellos del país "c".
Comentarios
Para cualquier pregunta, comentario u opinión sobre el IRI de Internet Society Pulse, póngase en contacto con el equipo de Internet Society Pulse([email protected]).
Agradecimientos
La Internet Society desea agradecer a los siguientes colaboradores sus valiosas aportaciones a la concepción del Índice de Resiliencia de Internet (IRI) de Internet Society Pulse. Amreesh Phokeer (Internet Society), Kevin Chege (Internet Society), Assane Gueye (Universidad Carnegie Mellon-África), Josiah Chavula (Universidad de Ciudad del Cabo) y Ahmed Elmokashfi (Simula Research Lab).
