Méthodologie de l'Indice de résilience d'Internet
Introduction
À propos de l'indice
Internet joue un rôle essentiel dans la société actuelle. Malheureusement, tous les pays ne sont pas sur un pied d’égalité en ce qui concerne la résilience de leur infrastructure Internet. De nombreux pays à faible revenu disposent d'une infrastructure de réseaux et de câbles insuffisamment développés, ou manquent de systèmes d’interconnexion redondants. Dans ces pays (ou ces régions), les risques de coupures d'Internet sont bien plus élevés qu'ailleurs.
Mesurer la résilience d'Internet n’est pas une tâche facile, car son infrastructure complexe repose sur plusieurs éléments fondamentaux. De plus, le paysage d'Internet varie considérablement d'un pays à l'autre, et, pour pouvoir comparer objectivement et sur une base commune les différents pays, il est nécessaire de disposer d'un ensemble de mesures permettant de suivre et d'enregistrer les différents éléments qui contribuent à la résilience d'Internet.
Pour y parvenir, l'Internet Society a créé l'Indice de résilience Internet Pulse (IRI). Ce document présente l’approche utilisée pour élaborer l’indice, le processus de sélection des indicateurs et des sources de données sous-jacentes, le système de pondération, ainsi que les méthodes d’agrégation et d’imputation employées.
Les quatre piliers d'un écosystème Internet résilient
Afin de refléter la nature polyvalente d'Internet, l'indice s'appuie sur quatre piliers majeurs qui contribuent tous au bon fonctionnement d'Internet. Voici ces piliers :
- Infrastructure : l'existence et la disponibilité d'une infrastructure physique assurant la connectivité Internet.
- Performance : la capacité du réseau à offrir aux utilisateurs finaux un accès fluide et fiable aux services Internet.
- Sécurité : la capacité du réseau à résister aux perturbations intentionnelles ou non, grâce à l’adoption de technologies et de bonnes pratiques en matière de sécurité.
- Préparation du marché : la capacité du marché à s’autoréguler et à offrir des services abordables aux utilisateurs finaux au sein d’un marché diversifié et concurrentiel.
L’IRI Pulse de l'Internet Society est élaboré selon les bonnes pratiques existantes, conformément au Handbook on Constructing Composite Indicators du Centre commun de recherche de la Commission européenne et de l’OCDE. L’IRI Pulse adopte une méthodologie similaire à celle d’autres indices existants, tels que le GSMA Mobile Connectivity Index, le Facebook/EIU Inclusive Internet Index et le Web Foundation Web Index.
Acquisition de données
Sélection des indicateurs
L'élaboration d’un indicateur composite robuste implique une sélection rigoureuse des indicateurs sous-jacents. À ce jour, il n’existe pas de métriques directes et facilement accessibles permettant d’obtenir des informations sur la résilience d’Internet d’un réseau ou d’un pays. Dans le modèle IRI Pulse de l’Internet Society, les indicateurs sélectionnés reflètent un aspect spécifique de la résilience devant être quantifié. Le manuel OCDE/JRC fournit des orientations sur les principales caractéristiques à prendre en compte lors de la sélection des indicateurs. En somme, ils doivent être précis, actuels et couvrir le plus grand nombre de pays possible. De plus, l'IRI Pulse de l'Internet Society se base exclusivement sur des indicateurs quantitatifs, et non sur des indicateurs qualitatifs, comme la perception de la qualité du service. Cela permet d'utiliser un ensemble de mesures objectives pour réaliser les comparaisons entre les pays.
Critères de sélection
Les critères suivants ont été utilisés pour la sélection des indicateurs :
- Pertinence : l’indicateur doit permettre de refléter une augmentation ou une diminution de la résilience d’Internet dans un pays donné.
- Précision : l'indicateur doit estimer ou décrire correctement les quantités ou caractéristiques qu'il sert à mesurer.
- Couverture : les données doivent couvrir autant de pays que possible, car l'indice a vocation à être mondial.
- Actualité : toute base de données doit dater de moins de deux ans. Certaines données, comme celles relatives à la performance ou à la couverture réseau, doivent être récentes. D’autres, comme l’EGDI, ne varient pas beaucoup d’une année à l’autre, il est donc acceptable de les utiliser même si elles ont un ou deux ans.
- Continuité : pour comparer l’indice de manière objective au fil des ans, il est important de travailler avec une liste stable d’indicateurs, garantissant des données cohérentes dans le temps.
Types d'indicateurs
Il existe trois principaux types d'indicateurs utilisés pour calculer l'IRI Pulse de l'Internet Society :
- Indicateur direct : un indicateur direct est une mesure directe d'un aspect de la résilience d'Internet (ex. : taux d'adoption du protocole HTTPS, latence, bande passante, etc.). Ces indicateurs disposent d'une unité de mesure spécifique, et leur valeur brute peut correspondre à différentes échelles en fonction de ce qui est mesuré.
- Indicateur composite : un indicateur composite fournit un score, qui est lui-même dérivé de plusieurs autres variables. Parmi les exemples figurent le score MANRS, l’indice EGDI, etc. L’échelle d’un indicateur composite se situe généralement entre 0 et 100.
- Indicateur proxy : un indicateur de substitution est utilisé lorsqu’il est difficile de trouver une mesure spécifique pour évaluer un aspect de la résilience. Les indicateurs de substitution peuvent être soit directs, soit composites. Par exemple, l’IRI utilise le nombre de points d’échange Internet (IXP) et le nombre de centres de données comme indicateurs de substitution de la robustesse de l’infrastructure locale.
Orientation des indicateurs
Un indicateur peut être positif ou négatif. Dans le modèle de l'IRI Pulse de l'Internet Society, des indicateurs positifs et négatifs sont utilisés, soit individuellement, soit en combinaison avec d’autres indicateurs, afin de caractériser le niveau global de résilience. Un exemple d’indicateur positif est le « nombre de serveurs Internet sécurisés », car plus ce nombre est élevé, plus le réseau sera sécurisé. À l’inverse, le « % d’infections par spam » est un indicateur négatif, car plus ce pourcentage est élevé, moins les réseaux sous-jacents sont sécurisés.
Précisions relatives à certains indicateurs
Performance réseau
Les données de performance réseau relatives à la bande passante, à la latence et au jitter sont collectées à partir de l’Ookla Speedtest Global Index mensuel. Ils contiennent des mesures sur les performances des réseaux fixes et mobiles du monde entier. Les valeurs médianes de téléchargement, d’upload, de latence et de jitter sont calculées par pays.
Redondance en amont
La redondance en amont correspond au nombre moyen de fournisseurs IPv4 en amont par systèmes autonomes (AS) actifs dans le pays. Plus le nombre de fournisseurs en amont par AS est élevé, plus l’écosystème global est résilient. La base de données CAIDA sur les relations entre AS est utilisée pour déduire la relation fournisseur-client.
Efficacité du peering
Le score d’efficacité de peering d’un pays est calculé en prenant le nombre de réseaux locaux échangeant du trafic aux IXP de ce pays et en le divisant par le nombre de réseaux locaux actifs (présents dans la table de routage globale) dans ce même pays. PeeringDB fournit des données sur les pairs aux IXP, tandis que le RIPEstat fournit des données sur les réseaux actifs.
Où :
Concentration du marché
L'Internet Society Pulse IRI utilise l'indice de Herfindahl-Hirschman (IHH) pour calculer le score de concentration du marché. Les statistiques APNIC ASPOP fournissent des informations sur les parts de marché par AS et par pays. Nous agrégeons ces données par organisation à l'aide d'as2org+. L'IHH varie de 0 à 10 000, 0 indiquant une absence de concentration (marché concurrentiel) et 10 000 la présence d'un seul ASN, soit une part de marché de 100 %.
Où :
Diversité des fournisseurs en amont
La diversité des fournisseurs en amont est un élément important à mesurer, car elle indique dans quelle mesure les relations d’un réseau donné sont concentrées sur un seul réseau ou un groupe de réseaux. Au niveau national, certains opérateurs de réseaux assurent un accès international, et, plus le nombre de fournisseurs d'Internet en amont est élevé, plus le pays est résilient en termes de dépendance du réseau.
La notion de dépendance du réseau peut être mesurée indirectement en utilisant l'hégémonie des AS, un score attribué à un réseau pour quantifier son niveau de centralisation mesuré sur la base du BGP. L'hégémonie des AS est comprise entre 0 et 1 et peut être interprétée comme la moyenne des chemins transitant par un nœud. Plus le score d'hégémonie des AS est élevé, plus la dépendance vis-à-vis de ce réseau est forte.
Chaque réseau d’un pays se voit attribuer un score d’hégémonie des AS en fonction de son degré de centralité pour les autres réseaux du même pays. Pour calculer la diversité de la répartition des fournisseurs en amont au niveau d’un pays, nous utilisons à nouveau l’HHI. Dans un scénario parfaitement diversifié (HHI = 0), tous les réseaux auraient le même score d’hégémonie des AS. Une valeur élevée de l’HHI signifie qu’un petit nombre de fournisseurs domine le marché de la connectivité Internet en amont.
Liste des indicateurs
Le tableau 1 présente la liste des indicateurs, avec leur unité de mesure et la source des informations.
| Indicator | Description | Unit | Source |
|---|---|---|---|
| Network Coverage | Mobile network coverage includes 2G/3G/4G with a composite score provided by the GSMA | Score (0 - 100) | GSMA |
| Spectrum Allocation | Spectrum allocation (composite score) | Score (0 - 100) | GSMA |
| Number of IXPs | Number of IXPs per city where city has population > 300,000 for countries with population of <=20,000,000 and city has population > 1,000,000 otherwise. | # of IXPs per city | PeeringDB |
| Datacenters | Number of datacenters | # of datacenter per 10 million population | PeeringDB |
| Mobile / Fixed Latency | Median latency observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Jitter | Median jiter observed to the nearest Ookla server | ms | Ookla |
| Mobile / Fixed Upload Speed | Median upload throughput measured to the nearest Ookla server | Mbps | Ookla |
| Mobile / Fixed Download Speed | Median download throughput measured to the nearest Ookla server | Mbps | Ookla |
| IPv6 | IPv6 enabled end users | % of IPv6 adoption | Akamai, Facebook, Google, APNIC |
| HTTPS | Pageloads using HTTPS | % of page loads using HTTPS | Mozilla |
| DNSSEC Validation | Users validating DNSSEC | % of users validating DNSSEC | APNIC |
| DNSSEC Adoption | Is the ccTLD DNSSEC signed? | True or False | DNS |
| MANRS Readiness | MANRS score (filtering, global coordination, IRR, RPKI) | Score (0 - 100) | MANRS Observatory |
| Upstream Redundancy | Average number of upstream IPv4 providers for a countries routed ASNs | Score (0 - 100) | CAIDA, NRO, RIPEstat |
| Secure Internet Servers | Number of secure Internet servers detected on the country's networks | # of secure servers per 1000 population | World Bank |
| Global Cybersecurity Index | Global Cybersecurity Index (Composite score) | Score (0 - 100) | ITU |
| DDoS Potential | Potential DDoS threat a country represents | Percentage | Cybergreen |
| Affordability | Mobile data and voice low-consumption basket. The basket is based on a monthly usage of a minimum of 70 voice minutes, 20 SMSs and 500 MB of data using at least 3G technology. | % of GNI per capita | ITU DataHub |
| Market Concentration | Herfindahl-Hirschman Index (HHI) calculates the market concentration based on market share information per network | Score (0 - 10000) | APNIC, PeeringDB, CAIDA |
| Upstream Provider Diversity | Herfindahl-Hirschman Index (HHI) calculated over the marketshare of transit networks with marketshare greater than 1% | Score (0 - 10000) | IIJ |
| Peering Efficiency | Ratio of networks peering at IXPs vs routed ASes in a country | Percentage | PeeringDB, RIPEstat |
| Domain Count | Domains registered by ccTLD | # of domains per ccTLD per 1000 population | DomainTools |
| EGDI | E-Government Development Index | Index (0 - 100) | UN |
Traitement des données
Les données brutes peuvent revêtir différentes formes et sont généralement recueillies dans des formats différents : certains ensembles de données sont distribués normalement, tandis que d'autres sont biaisés. Avant d’effectuer tout calcul ou toute agrégation, il est nécessaire d’imputer les données manquantes et d’identifier et traiter les valeurs aberrantes.
Données manquantes
Les techniques suivantes ont été utilisées pour imputer les données manquantes :
| Indicator | Technique | Details |
|---|---|---|
| Affordability | Substitution | We replace missing values with data from adjacent years |
| Fixed / Mobile Internet Performance | Substitution | We substitute mobile data for fixed data and vice-versa where values are otherwise unavailable |
| Maket Concentration | Backward fill | Initial gaps in data are filled with first available datapoints |
| Fixed / Mobile Internet Performance, HTTPS Adoption, Market Concentration, Secure Internet Servers | Forward fill | Gaps in data are filled with most recent earlier datapoints |
| IPv6 | Substitution | We impute a value of 0 where datapoints are otherwise unavailable |
| Spectrum Allocation, Network Coverage | Substitution | Replacement by data from a country from the same region with similar GDP per capita |
Remise à l’échelle et traitement des valeurs aberrantes
Les échelles utilisées par les indicateurs sont également différentes. Par exemple, la latence est comprise entre 0 et 500 ms, tandis que le nombre de domaines pour un ccTLD peut être compris entre 0 et 2 000 000. Il est important de pondérer les données pour rendre les indicateurs comparables entre eux et pour éviter que la taille d'un pays représente un problème (car les pays avec une population ou un PIB plus important ont généralement davantage de réseaux, d'IXP, de centres de données, etc.).
En revanche, les valeurs aberrantes ont tendance à fausser les données et peuvent donc influencer le calcul du score global, surtout parce que l’IRI Pulse de l’Internet Society utilise la méthode de normalisation min-max pour mettre les données à l’échelle (voir la section sur la normalisation min-max ci-dessous). Si un indicateur a une valeur très élevée ou très faible, cela se reflétera dans le calcul min-max.
Les transformations suivantes ont été appliquées aux indicateurs répertoriés dans le cadre de la méthodologie :
- Normalisation par taille de population : nombre de centres de données, nombre de domaines
- Normalisation par nombre de villes : nombre de points d’échange Internet (IXP)
- Transformation logarithmique* : serveurs Internet sécurisés, performance Internet fixe/mobile
* Une transformation logarithmique est utile pour traiter des ensembles de données biaisés et pour écarter les valeurs extrêmes. Non seulement elle met les données à l’échelle, mais elle présente également l’avantage de gérer les valeurs aberrantes dans l’ensemble de données. La transformation logarithmique préserve les différences entre les valeurs.
Après la mise à l'échelle et la transformation des indicateurs ci-dessus, nous avons mesuré l'asymétrie et l'aplatissement des indicateurs restants. Pour les indicateurs présentant une asymétrie > 2 ou un aplatissement > 3,5 (seuils généraux pour la détection des valeurs aberrantes), l’IRI utilise la méthode de l’écart interquartile (IQR : Q3 - Q1) pour supprimer les valeurs aberrantes. Les règles suivantes sont appliquées :
- Toute valeur supérieure à Q3 + 1,5 × IQR est remplacée par Q3 + 1,5 × IQR
- Toute valeur inférieure à Q1 – 1,5 × IQR est remplacée par Q1 – 1,5 × IQR
Normalisation min-max
L'étape suivante, après le nettoyage et la transformation des données, est la normalisation. La normalisation est importante, car les indicateurs sont recueillis avec des unités de mesure différentes (pourcentage, ms, mo/s, nombre, etc.). Il est donc important de les convertir en une unité commune comprise entre 0 et 100, où 100 est généralement la meilleure valeur, et 0 la plus faible.
La méthode choisie est la normalisation min-max, une technique couramment utilisée par de nombreux indices réputés et, contrairement à d'autres techniques comme les échelles par classement ou par catégorie, la normalisation min-max assure la cohérence de l'intervalle entre les pays.
Vous trouverez ci-dessous la formule utilisée par l'IRI Pulse de l'Internet Society pour calculer la valeur d'un indicateur, selon qu’il soit positif ou négatif :
Les indicateurs positifs contribuent à l'augmentation de l'indice et les indicateurs négatifs entraînent sa diminution, ce qui explique pourquoi nous prenons la valeur delta :
Nous avons choisi de ne pas utiliser la technique de normalisation par score z (qui normalise autour de la moyenne et s’échelonne généralement entre 0 et 1), car tous les indicateurs ne suivaient pas une distribution normale.
Enfin, l’IRI ne comprend que les pays pour lesquels nous disposons de données (après imputation, etc.) pour tous les indicateurs et pour chaque trimestre depuis le premier trimestre 2019.
Pondération et agrégation
Attribution de coefficients
Il existe deux principales méthodes pour agréger les indicateurs normalisés en un score final :
- Un système de pondération ad hoc.
- Des techniques statistiques (d’optimisation).
L'IRI Pulse de l'Internet Society utilise un système de pondération (car c'est la technique la plus simple des deux) et se base sur les données recueillies par l'Internet Society par le biais de sondages et de discussions avec des experts dans ce domaine.
Pour le processus de pondération, l'importance de l'indicateur a également été prise en compte avec une approche basée sur le cycle de vie. Par exemple, pour le pilier Performance, la pondération suivante a été attribuée aux dimensions sous-jacentes : réseaux fixes (40 %) et réseaux mobiles (60 %). Une importance plus grande a été accordée aux réseaux mobiles, car ils sont davantage utilisés pour l’accès à Internet à l’échelle mondiale.
Dans le cadre de l’IRI Pulse de l’Internet Society, les indicateurs sont regroupés en différentes dimensions, et les dimensions en piliers, chacun fournissant des mesures quantitatives propres à un aspect spécifique de la résilience d’Internet. Vous trouverez ci-dessous un tableau avec les indicateurs, les dimensions et les piliers, ainsi que les coefficients qui leur sont affectés, utilisés dans le calcul de l'IRI Pulse de l'Internet Society.
Les coefficients sont révisés chaque année.
| Pillar | Weight (%) | Dimension | Weight (%) | Indicator | Weight (%) |
|---|---|---|---|---|---|
| Infrastructure | 25 | Mobile connectivity | 50 | Network Coverage | 70 |
| Spectrum Allocation | 30 | ||||
| Enabling infrastructure | 50 | Number of IXPs | 50 | ||
| Datacenters | 50 | ||||
| Performance | 25 | Fixed networks | 40 | Latency | 20 |
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Mobile networks | 60 | Latency | 20 | ||
| Upload | 30 | ||||
| Download | 30 | ||||
| Jitter | 20 | ||||
| Enabling technologies and security | 25 | Enabling technologies | 20 | IPv6 | 30 |
| HTTPS | 70 | ||||
| DNS ecosystem | 30 | DNSSEC Validation | 50 | ||
| DNSSEC Adoption | 50 | ||||
| Routing hygiene | 30 | MANRS Readiness | 50 | ||
| Upstream Redundancy | 50 | ||||
| Security threat | 20 | Secure Internet Servers | 30 | ||
| Global Cybersecurity Index | 40 | ||||
| DDoS Potential | 30 | ||||
| Local ecosystem & Market readiness | 25 | Market structure | 50 | Affordability | 40 |
| Market concentration | 30 | ||||
| Upstream provider diversity | 30 | ||||
| Traffic localization | 50 | Peering efficiency | 40 | ||
| Domain count | 30 | ||||
| EGDI | 30 |
Agrégation
L'IRI Pulse de l'Internet Society utilise une formule de somme pondérée à chaque niveau (indicateur, dimension et pilier) pour agréger les données en un score composite. La formule suivante a été utilisée :
Où :
Et où :
Autrement dit, l’indice final 𝐼𝑅𝐼 du pays « c » correspond à la somme des piliers « P » pondérés. Un pilier correspond à la somme pondérée des dimensions sous-jacentes « D », et une dimension correspond à la somme pondérée des indicateurs « I », le tout pour le pays « c ».
Retours
Pour toute question, remarque ou retour concernant l’IRI, veuillez contacter l'équipe Pulse de l'Internet Society ([email protected]).
Remerciements
L’Internet Society tient à remercier les personnes suivantes pour leur précieuse contribution à la conception de l’Indice de résilience d'Internet Pulse (IRI) de l'Internet Society. Amreesh Phokeer (Internet Society), Kevin Chege (Internet Society), Assane Gueye (Carnegie Mellon University Africa), Josiah Chavula (University of Cape Town) et Ahmed Elmokashfi (Simula Research Lab).
