Méthodologie de l'indice de résilience de l'internet
Introduction
À propos de l'index
L'internet joue un rôle essentiel dans la société actuelle. Malheureusement, tous les pays ne sont pas sur un pied d'égalité en ce qui concerne la résilience de l'infrastructure Internet. De nombreux pays à faible revenu disposent de réseaux et d'infrastructures câblées sous-dimensionnés ou ne disposent pas de systèmes d'interconnexion redondants. Dans ces pays (ou régions), la probabilité d'une panne d'internet est beaucoup plus élevée que dans d'autres pays.
Mesurer la résilience de l'internet n'est pas une tâche facile, car l'infrastructure complexe de l'internet repose sur plusieurs éléments. En outre, le paysage de l'internet varie considérablement dans le monde et pour pouvoir comparer objectivement les pays - sur une base commune - il faut disposer d'un ensemble objectif de mesures qui suivent et enregistrent les différents éléments qui contribuent à la résilience de l'internet.
Pour ce faire, l'Internet Society a créé l'indice de résilience de l'Internet Pulse (IRI). Ce document décrit l'approche utilisée pour construire l'indice, la sélection des indicateurs et les sources de données sous-jacentes, le système de pondération et les méthodes d'agrégation et d'imputation utilisées.
Les quatre piliers d'un écosystème Internet résilient
Afin d'appréhender les multiples facettes de l'internet, l'indice repose sur quatre piliers principaux qui, ensemble, contribuent au bon fonctionnement de l'internet. Ces piliers sont les suivants
- Infrastructure : L'existence et la disponibilité de l'infrastructure physique qui fournit la connectivité Internet.
- Performance : La capacité du réseau à fournir aux utilisateurs finaux un accès continu et fiable aux services Internet.
- Sécurité : La capacité du réseau à résister aux perturbations intentionnelles ou non intentionnelles grâce à l'adoption de technologies et de meilleures pratiques en matière de sécurité.
- Préparation du marché : capacité du marché à s'autoréguler et à fournir des services abordables aux utilisateurs finaux dans le cadre d'un marché diversifié et concurrentiel.
L'IRI Pulse de l'Internet Society est construit en utilisant les meilleures pratiques existantes selon le Manuel sur la construction d'indicateurs composites du Centre commun de recherche de la Commission européenne et de l'OCDE. L'IRI Pulse adopte une méthodologie similaire à d'autres indices existants tels que l'indice de connectivité mobile GSMA, l'indice Facebook/EIU Inclusive Internet Index et l'indice Web Foundation Web Index.
Recherche de données
Sélection des indicateurs
L'élaboration d'un indicateur composite robuste nécessite une sélection minutieuse des indicateurs sous-jacents. À ce jour, il n'existe pas de mesures directes et facilement disponibles qui fournissent des informations sur la résilience Internet d'un réseau ou d'un pays. Dans le cadre de l'IRI de l'Internet Society Pulse, les indicateurs sélectionnés reflètent un aspect spécifique de la résilience qui doit être quantifié. Le manuel de l'OCDE/CCR fournit des indications sur les principales caractéristiques à prendre en compte lors de la sélection des indicateurs. Essentiellement, ils doivent être précis, opportuns et couvrir le plus grand nombre de pays possible. En outre, l'IRI de l'Internet Society Pulse s'appuie exclusivement sur des indicateurs quantitatifs, par opposition aux indicateurs qualitatifs tels que la perception de la qualité du service. Il s'agit de s'assurer qu'il existe un ensemble objectif de mesures qui peuvent être utilisées pour faire des comparaisons entre les pays.
Critères de sélection
Les critères suivants ont été utilisés pour sélectionner les indicateurs :
- Pertinence : L'indicateur doit permettre de montrer une augmentation ou une diminution de la résilience de l'internet dans un pays sélectionné.
- Précision : L'indicateur doit estimer ou décrire correctement les quantités ou les caractéristiques qu'il est censé mesurer.
- Couverture : Les données doivent couvrir le plus grand nombre de pays possible, car l'indice a vocation à être un indice mondial.
- Fraîcheur : Tout ensemble de données doit avoir au maximum deux ans. Certains ensembles de données tels que la performance ou la couverture du réseau doivent être récents. D'autres ensembles de données, tels que l'EGDI, ne changent pas beaucoup d'une année à l'autre ; il est donc acceptable d'utiliser ces ensembles de données même s'ils datent d'un an ou deux.
- Continuité : Pour comparer objectivement l'indice au fil des ans, il est important de travailler avec une liste stable d'indicateurs, qui fourniront des données de manière cohérente au fil du temps.
Types d'indicateurs
Trois principaux types d'indicateurs ont été utilisés pour calculer l'IRI de l'Internet Society Pulse :
- Indicateur direct : Un indicateur direct est une mesure directe d'un aspect de la résilience, par exemple le pourcentage d'adoption du protocole HTTPS, la latence, la bande passante, etc. Ils ont une unité de mesure spécifique et la valeur brute peut se situer sur différentes échelles en fonction de ce qui est mesuré.
- Indicateur composite : Un indicateur composite fournit un score qui est lui-même dérivé de plusieurs autres variables. Les exemples sont le score MANRS, l'indice EGDI, etc. L'échelle d'un indicateur composite est généralement comprise entre 0 et 100.
- Indicateur de substitution : Un indicateur de substitution est utilisé lorsqu'il est difficile de trouver une mesure spécifique pour mesurer un aspect de la résilience. Les indicateurs de substitution peuvent être directs ou composites. Par exemple, l'IRI utilise le "nombre d'IXP" et le "nombre de centres de données" comme indicateurs indirects de la robustesse de l'infrastructure locale.
Orientation des indicateurs
Un indicateur peut être positif ou négatif. Dans le cadre de l'IRI de l'Internet Society Pulse, les indicateurs positifs et négatifs sont utilisés soit individuellement, soit en combinaison avec d'autres indicateurs pour caractériser les niveaux globaux de résilience. Un exemple d'indicateur positif est le "nombre de serveurs Internet sécurisés", car plus le nombre est élevé, plus le réseau est sécurisé. Inversement, le "pourcentage d'infections par spam" est un indicateur négatif, car plus le pourcentage est élevé, moins les réseaux sous-jacents sont sûrs.
Détails de certains indicateurs
Performance du réseau
Les données relatives à la performance des réseaux concernant la bande passante, la latence et la gigue sont collectées à partir de l'indice mensuel Ookla Speedtest Global Index. Il contient des mesures sur la performance des réseaux fixes et mobiles dans le monde entier. Les valeurs médianes de téléchargement, d'upload, de latence et de gigue sont calculées par pays.
Redondance en amont
La redondance en amont est le nombre moyen de fournisseurs IPv4 en amont par système autonome (AS) actif dans le pays. Plus le nombre de fournisseurs en amont par AS est élevé, plus l'écosystème global est résilient. L'ensemble de données CAIDA AS-Relationship est utilisé pour déduire la relation entre le fournisseur et le client.
Efficacité du peering
Le score d'efficacité du peering d'un pays est calculé en divisant le nombre de réseaux locaux établissant un peering avec les IXP de ce pays par le nombre de réseaux locaux et actifs (figurant dans la table de routage mondiale) de ce pays. PeeringDB fournit des données sur les pairs IXP et RIPEstat fournit des données sur les réseaux actifs.
$$PE_c= \frac{\sum P_i}{A}$$Où ?
$$PE_c = \text{Efficacité du peering du pays c}$$ $$P_i = \text{As locaux faisant du peering à l'IXP i}$$ $$A = \text{Nombre d'AS actifs pour le pays c}$$Concentration du marché
L'Internet Society Pulse IRI utilise l'indice Herfindahl-Hirschman (HHI) pour calculer la concentration du marché. Les statistiques ASPOP de l'APNIC fournissent des informations sur les parts de marché par AS et par pays. Nous agrégeons ces données par organisation en utilisant as2org+. L'indice HHI est compris entre 0 et 10 000, où 0 signifie qu'il n'y a pas de concentration (marché concurrentiel) et 10 000 signifie qu'il n'y a qu'un seul ASN, c'est-à-dire qu'il détient 100 % des parts de marché.
$$HHI_c = s_1^2 + s_2^2 + s_3^2 + \ ; ... \N- ; s_n^2 $$$Où ?
$$HHI_c = \text{HHI du pays c}$$ $$s_n = \text{part de marché (\%) de }ASN_n \ ; \text{du pays c}$$$Diversité des fournisseurs en amont
La diversité des fournisseurs en amont est un élément important à mesurer car elle indique dans quelle mesure les relations d'un réseau donné sont concentrées sur un seul réseau ou groupe de réseaux. Au niveau national, il existe des opérateurs de réseaux spécifiques fournissant un accès international et plus le nombre de fournisseurs d'accès à l'internet en amont est diversifié, plus le pays est résistant en termes de dépendance à l'égard des réseaux.
La notion de dépendance du réseau peut être interprétée à l'aide de l'hégémonie de l'AS, qui est un score attribué à un réseau pour quantifier sa centralité telle qu'elle est observée par les moniteurs BGP. L'hégémonie de l'AS varie entre 0 et 1 et peut être interprétée comme la fraction moyenne des chemins traversant un nœud. Plus le score d'hégémonie de l'AS est élevé, plus la dépendance à l'égard de ce réseau spécifique est importante.
Chaque réseau dans un pays a un score d'hégémonie AS basé sur le degré de centralité qu'il occupe pour les autres réseaux dans le même pays. Pour calculer la diversité de la distribution des fournisseurs en amont au niveau d'un pays, nous utilisons à nouveau l'IHH. Dans un scénario de diversité parfaite (IHH = 0), tous les réseaux auraient le même score d'hégémonie AS. Une valeur IHH élevée signifie qu'un petit nombre de fournisseurs dominent le marché de la connectivité internet en amont.
Liste des indicateurs
Le tableau 1 présente la liste des indicateurs, l'unité de mesure et la source d'information.
| Indicator | Description | Unit | Source |
|---|---|---|---|
| Network Coverage | Mobile network coverage includes 2G/3G/4G with a composite score provided by the GSMA | Score (0 - 100) | GSMA |
| Spectrum Allocation | Spectrum allocation (composite score) | Score (0 - 100) | GSMA |
| Number of IXPs | Number of IXPs per city where city has population > 300,000 for countries with population of <=20,000,000 and city has population > 1,000,000 otherwise. | # of IXPs per city | PeeringDB |
| Datacenters | Number of datacenters | # of datacenter per 10 million population | PeeringDB |
| Mobile / Fixed Latency | Median latency observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Jitter | Median jiter observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Upload Speed | Median upload throughput measured to the nearest Ookla server | Mbps | Ookla |
| Mobile / Fixed Download Speed | Median download throughput measured to the nearest Ookla server | Mbps | Ookla |
| IPv6 | IPv6 enabled end users | % of IPv6 adoption | Akamai, Facebook, Google, APNIC |
| HTTPS | Pageloads using HTTPS | % of page loads using HTTPS | Mozilla |
| DNSSEC Validation | Users validating DNSSEC | % of users validating DNSSEC | APNIC |
| DNSSEC Adoption | Is the ccTLD DNSSEC signed? | True or False | DNS |
| MANRS Readiness | MANRS score (filtering, global coordination, IRR, RPKI) | Score (0 - 100) | MANRS Observatory |
| Upstream Redundancy | Average number of upstream IPv4 providers for a countries routed ASNs | Score (0 - 100) | CAIDA, NRO, RIPEstat |
| Secure Internet Servers | Number of secure Internet servers detected on the country's networks | # of secure servers per 1000 population | World Bank |
| Global Cybersecurity Index | Global Cybersecurity Index (Composite score) | Score (0 - 100) | ITU |
| DDoS Potential | Potential DDoS threat a country represents | Percentage | Cybergreen |
| Affordability | Mobile broadband data and voice low-consumption basket. The basket is based on a monthly usage of a minimum of 70 voice minutes, 20 SMSs and 1 GB of data using at least 3G technology. | % of GNI per capita | ITU DataHub |
| Market Concentration | Herfindahl-Hirschman Index (HHI) calculates the market concentration based on market share information per network | Score (0 - 10000) | APNIC, PeeringDB, CAIDA |
| Upstream Provider Diversity | Herfindahl-Hirschman Index (HHI) calculated over the marketshare of transit networks with marketshare greater than 1% | Score (0 - 10000) | IIJ |
| Peering Efficiency | Ratio of networks peering at IXPs vs routed ASes in a country | Percentage | PeeringDB, RIPEstat |
| Domain Count | Domains registered by ccTLD | # of domains per ccTLD per 1000 population | DomainTools |
| EGDI | E-Government Development Index | Index (0 - 100) | UN |
Traitement des données
Les données brutes se présentent sous différentes formes et sont généralement accompagnées de plusieurs artefacts - certains ensembles de données sont normalement distribués, tandis que d'autres sont asymétriques. Avant d'effectuer un calcul ou une agrégation, nous devons imputer les données manquantes et identifier et traiter les valeurs aberrantes.
Données manquantes
Les techniques suivantes ont été utilisées pour imputer les données manquantes :
| Indicator | Technique | Details |
|---|---|---|
| Affordability | Substitution | We replace missing values with data from adjacent years |
| Fixed / Mobile Internet Performance | Substitution | We substitute mobile data for fixed data and vice-versa where values are otherwise unavailable |
| Maket Concentration | Backward fill | Initial gaps in data are filled with first available datapoints |
| Fixed / Mobile Internet Performance, HTTPS Adoption, Market Concentration, Secure Internet Servers | Forward fill | Gaps in data are filled with most recent earlier datapoints |
| IPv6 | Substitution | We impute a value of 0 where datapoints are otherwise unavailable |
| Spectrum Allocation, Network Coverage | Substitution | Replacement by data from a country from the same region with similar GDP per capita |
Remise à l'échelle et traitement des valeurs aberrantes
Les échelles utilisées par les indicateurs sont également différentes : par exemple, le temps de latence peut varier de 0 à 500 ms, tandis que le nombre de domaines pour un ccTLD peut varier de 0 à 2 000 000. Il est important d'échelonner les données pour que les indicateurs soient comparables entre eux et pour éviter le problème de la taille du pays (c'est-à-dire que les pays plus grands en termes de population ou de PIB ont tendance à avoir plus de réseaux, d'IXP, de centres de données, etc.)
D'autre part, les valeurs aberrantes ont tendance à fausser les données et peuvent donc avoir un impact sur le calcul du score global, en particulier parce que l'Internet Society Pulse IRI utilise la méthode de normalisation min-max pour mettre les données à l'échelle (voir la section sur la normalisation min-max ci-dessous). Si un indicateur a une valeur très élevée ou très basse, cela se reflétera dans le calcul du min-max.
Les transformations suivantes ont été appliquées aux indicateurs énumérés dans le cadre de l'étude :
- Dénomination par taille de population : Nombre de centres de données, nombre de domaines
- Dénomination par nombre de villes : Nombre d'IXP
- Transformation des logs* : Serveurs Internet sécurisés, performances de l'Internet fixe/mobile
* Une transformation logarithmique est utile pour traiter les ensembles de données asymétriques et pour éliminer les valeurs extrêmes. Non seulement elle met les données à l'échelle, mais elle présente l'avantage de traiter les valeurs aberrantes de l'ensemble de données. La transformation logarithmique préserve les différences entre les valeurs.
Après avoir mis à l'échelle et transformé les indicateurs ci-dessus, nous vérifions les valeurs d'asymétrie et d'aplatissement des indicateurs restants. Pour ceux dont l'asymétrie est > 2 ou l'aplatissement > 3,5 (seuils généraux de détection des valeurs aberrantes), l'IRI utilise la méthode IQR (Interquartile Range : Q3 - Q1) pour éliminer les valeurs aberrantes. Les règles suivantes sont appliquées :
- Toute valeur supérieure à Q3 + 1,5*IQR est remplacée par Q3 + 1,5*IQR.
- Toute valeur inférieure à Q1 - 1,5*IQR est remplacée par Q1 - 1,5*IQR.
Normalisation Min-Max
L'étape suivante, après le nettoyage et la transformation des données, est la normalisation. La normalisation est importante car les indicateurs sont collectés en utilisant différentes unités de mesure (pourcentage, ms, Mbps, nombre, etc.). ). Il est donc important de les ramener à une unité commune telle qu'une échelle de 0 à 100, où 100 correspond généralement à la valeur la plus forte et 0 à la valeur la plus faible.
La méthode choisie est la normalisation min-max qui est une technique courante utilisée par de nombreux indices connus et, contrairement à d'autres techniques telles que le classement et les échelles catégorielles, le min-max maintient l'intervalle entre les pays cohérent.
Vous trouverez ci-dessous la formule que l'Internet Society Pulse IRI utilise pour calculer la valeur d'un indicateur selon qu'il est positif ou négatif :
$$\text{Indicateur positif:}\,\,\,I_{k,c} = \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$ $$\text{Indicateur négatif:}\,\,\,I_{k,c} = 1 - \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$ $$\text{où}\ ; x\ ; \text{réfère à la valeur brute de l'indicateur}\ ; k\ ; \text{du pays} \ ; c\ ; \text{et}\;I\;\text{réfère à la valeur normalisée.}$$ $$Max / Min(x_k)\;\text{réfère à la valeur min/max de l'indicateur}\;k\;\text{pour tous les pays.}$$Les indicateurs positifs contribuent à l'augmentation d'un indice, les indicateurs négatifs contribuent à une diminution du score, c'est pourquoi nous prenons le delta :
$$(1 - I_{k,c})$$(1 - I_{k,c})$$(1 - I_{k,c})Nous avons choisi de ne pas utiliser la technique de standardisation du score z (cette technique standardise autour de la valeur moyenne et se situe entre 0 et 1) car tous les indicateurs ne suivaient pas une distribution normale.
Enfin, l'IRI n'inclut que les pays pour lesquels nous disposons de données (après imputation, etc.) pour tous les indicateurs et pour chaque trimestre depuis 2019 Q1.
Pondération et agrégation
Attribution de poids
Il existe deux façons principales d'agréger les indicateurs normalisés en un score final :
- Un système de pondération ad hoc.
- Techniques statistiques (optimisation).
L'IRI Pulse de l'Internet Society utilise un système de pondération car il s'agit de la technique la plus simple des deux et qu'elle s'appuie sur les données recueillies par l'Internet Society dans le cadre d'enquêtes et de discussions avec des experts en la matière.
Au cours du processus de pondération, l'importance de l'indicateur a également été prise en compte en utilisant une approche fondée sur le cycle de vie. Par exemple, pour le pilier Performance, les pondérations suivantes ont été attribuées aux dimensions sous-jacentes : Réseaux fixes (40 %) et Réseaux mobiles (60 %). Une plus grande importance a été accordée aux réseaux mobiles car ils sont plus largement utilisés pour l'accès à l'internet d'un point de vue mondial.
Dans le cadre de l'IRI de l'Internet Society Pulse, les indicateurs sont regroupés en différentes dimensions, et les dimensions en piliers, qui fournissent leurs propres mesures quantitatives d'un aspect spécifique de la résilience de l'Internet. Vous trouverez ci-dessous un tableau présentant les indicateurs, les dimensions et les piliers, ainsi que les pondérations associées, utilisés pour le calcul de l'IRI de l'Internet Society Pulse.
Les pondérations sont revues chaque année.
| Pillar | Weight (%) | Dimension | Weight (%) | Indicator | Weight (%) |
|---|---|---|---|---|---|
| Infrastructure | 25 | Mobile connectivity | 50 | Network Coverage | 70 |
| Spectrum Allocation | 30 | ||||
| Enabling infrastructure | 50 | Number of IXPs | 50 | ||
| Datacenters | 50 | ||||
| Performance | 25 | Fixed networks | 40 | Latency | 20 |
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Mobile networks | 60 | Latency | 20 | ||
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Enabling technologies and security | 25 | Enabling technologies | 20 | IPv6 | 30 |
| HTTPS | 70 | ||||
| DNS ecosystem | 30 | DNSSEC Validation | 50 | ||
| DNSSEC Adoption | 50 | ||||
| Routing hygiene | 30 | MANRS Readiness | 50 | ||
| Upstream Redundancy | 50 | ||||
| Security threat | 20 | Secure Internet Servers | 30 | ||
| Global Cybersecurity Index | 40 | ||||
| DDoS Potential | 30 | ||||
| Local ecosystem & Market readiness | 25 | Market structure | 50 | Affordability | 40 |
| Market concentration | 30 | ||||
| Upstream provider diversity | 30 | ||||
| Traffic localization | 50 | Peering efficiency | 40 | ||
| Domain count | 30 | ||||
| EGDI | 30 |
Agrégation
L'Internet Society Pulse IRI utilise une formule de somme pondérée à chaque niveau (indicateur, dimension et pilier) pour agréger les données en un score composite. La formule suivante a été utilisée :
$$IRI_c = \sum_i^n(w_i \cdot P_{i,c})$$$Où ?
$$P_{i,c}=\sum_i^n(w_i \cdot D_{i,c})$$$Et où :
$$D_{i,c}=\sum_i^n(w_i \cdot I_{i,c})$$$En termes simples, l'indice final 𝐼𝑅𝐼 du pays "c" est la somme des piliers pondérés "P". Un pilier est la somme pondérée des dimensions sous-jacentes "D" et une dimension est la somme pondérée des indicateurs "I", tous du pays "c".
Retour d'information
Pour toute question, commentaire ou réaction sur l'IRI d'Internet Society Pulse, veuillez contacter l'équipe d'Internet Society Pulse([email protected]).
Remerciements
L'Internet Society souhaite remercier les contributeurs suivants pour leur précieuse contribution à la conception de l'Indice de résilience de l'Internet Pulse de l'Internet Society (IRI). Amreesh Phokeer (Internet Society), Kevin Chege (Internet Society), Assane Gueye (Carnegie Mellon University-Africa), Josiah Chavula (University of Cape Town), et Ahmed Elmokashfi (Simula Research Lab).
