Méthodologie de l'Indice de résilience d'Internet

Introduction

À propos de l'indice

Internet joue un rôle essentiel dans la société actuelle. Malheureusement, tous les pays ne sont pas sur un pied d’égalité en ce qui concerne la résilience de leur infrastructure Internet. De nombreux pays à faible revenu disposent d'une infrastructure de réseaux et de câbles insuffisamment développés, ou manquent de systèmes d’interconnexion redondants. Dans ces pays (ou ces régions), les risques de coupures d'Internet sont bien plus élevés qu'ailleurs.

Mesurer la résilience d'Internet n’est pas une tâche facile, car son infrastructure complexe repose sur plusieurs éléments fondamentaux. De plus, le paysage d'Internet varie considérablement d'un pays à l'autre, et, pour pouvoir comparer objectivement et sur une base commune les différents pays, il est nécessaire de disposer d'un ensemble de mesures permettant de suivre et d'enregistrer les différents éléments qui contribuent à la résilience d'Internet.

Pour y parvenir, l'Internet Society a créé l'Indice de résilience Internet Pulse (IRI). Ce document présente l’approche utilisée pour élaborer l’indice, le processus de sélection des indicateurs et des sources de données sous-jacentes, le système de pondération, ainsi que les méthodes d’agrégation et d’imputation employées.

Les quatre piliers d'un écosystème Internet résilient

Afin de refléter la nature polyvalente d'Internet, l'indice s'appuie sur quatre piliers majeurs qui contribuent tous au bon fonctionnement d'Internet. Voici ces piliers :

  1. Infrastructure : l'existence et la disponibilité d'une infrastructure physique assurant la connectivité Internet.
  2. Performance : la capacité du réseau à offrir aux utilisateurs finaux un accès fluide et fiable aux services Internet.
  3. Sécurité : la capacité du réseau à résister aux perturbations intentionnelles ou non, grâce à l’adoption de technologies et de bonnes pratiques en matière de sécurité.
  4. Préparation du marché : la capacité du marché à s’autoréguler et à offrir des services abordables aux utilisateurs finaux au sein d’un marché diversifié et concurrentiel.

L’IRI Pulse de l'Internet Society est élaboré selon les bonnes pratiques existantes, conformément au Handbook on Constructing Composite Indicators du Centre commun de recherche de la Commission européenne et de l’OCDE. L’IRI Pulse adopte une méthodologie similaire à celle d’autres indices existants, tels que le GSMA Mobile Connectivity Index, le Facebook/EIU Inclusive Internet Index et le Web Foundation Web Index.

Acquisition de données

Sélection des indicateurs

L'élaboration d’un indicateur composite robuste implique une sélection rigoureuse des indicateurs sous-jacents. À ce jour, il n’existe pas de métriques directes et facilement accessibles permettant d’obtenir des informations sur la résilience d’Internet d’un réseau ou d’un pays. Dans le modèle IRI Pulse de l’Internet Society, les indicateurs sélectionnés reflètent un aspect spécifique de la résilience devant être quantifié. Le manuel OCDE/JRC fournit des orientations sur les principales caractéristiques à prendre en compte lors de la sélection des indicateurs. En somme, ils doivent être précis, actuels et couvrir le plus grand nombre de pays possible. De plus, l'IRI Pulse de l'Internet Society se base exclusivement sur des indicateurs quantitatifs, et non sur des indicateurs qualitatifs, comme la perception de la qualité du service. Cela permet d'utiliser un ensemble de mesures objectives pour réaliser les comparaisons entre les pays.

Critères de sélection

Les critères suivants ont été utilisés pour la sélection des indicateurs :

  • Pertinence : l’indicateur doit permettre de refléter une augmentation ou une diminution de la résilience d’Internet dans un pays donné.
  • Précision : l'indicateur doit estimer ou décrire correctement les quantités ou caractéristiques qu'il sert à mesurer.
  • Couverture : les données doivent couvrir autant de pays que possible, car l'indice a vocation à être mondial.
  • Actualité : toute base de données doit dater de moins de deux ans. Certaines données, comme celles relatives à la performance ou à la couverture réseau, doivent être récentes. D’autres, comme l’EGDI, ne varient pas beaucoup d’une année à l’autre, il est donc acceptable de les utiliser même si elles ont un ou deux ans.
  • Continuité : pour comparer l’indice de manière objective au fil des ans, il est important de travailler avec une liste stable d’indicateurs, garantissant des données cohérentes dans le temps.

Types d'indicateurs

Il existe trois principaux types d'indicateurs utilisés pour calculer l'IRI Pulse de l'Internet Society :

  1. Indicateur direct : un indicateur direct est une mesure directe d'un aspect de la résilience d'Internet (ex. : taux d'adoption du protocole HTTPS, latence, bande passante, etc.). Ces indicateurs disposent d'une unité de mesure spécifique, et leur valeur brute peut correspondre à différentes échelles en fonction de ce qui est mesuré.
  2. Indicateur composite : un indicateur composite fournit un score, qui est lui-même dérivé de plusieurs autres variables. Parmi les exemples figurent le score MANRS, l’indice EGDI, etc. L’échelle d’un indicateur composite se situe généralement entre 0 et 100.
  3. Indicateur proxy : un indicateur de substitution est utilisé lorsqu’il est difficile de trouver une mesure spécifique pour évaluer un aspect de la résilience. Les indicateurs de substitution peuvent être soit directs, soit composites. Par exemple, l’IRI utilise le nombre de points d’échange Internet (IXP) et le nombre de centres de données comme indicateurs de substitution de la robustesse de l’infrastructure locale.

Orientation des indicateurs

Un indicateur peut être positif ou négatif. Dans le modèle de l'IRI Pulse de l'Internet Society, des indicateurs positifs et négatifs sont utilisés, soit individuellement, soit en combinaison avec d’autres indicateurs, afin de caractériser le niveau global de résilience. Un exemple d’indicateur positif est le « nombre de serveurs Internet sécurisés », car plus ce nombre est élevé, plus le réseau sera sécurisé. À l’inverse, le « % d’infections par spam » est un indicateur négatif, car plus ce pourcentage est élevé, moins les réseaux sous-jacents sont sécurisés.

Précisions relatives à certains indicateurs

Performance réseau

Les données de performance réseau relatives à la bande passante, à la latence et au jitter sont collectées à partir de l’Ookla Speedtest Global Index mensuel. Ils contiennent des mesures sur les performances des réseaux fixes et mobiles du monde entier. Les valeurs médianes de téléchargement, d’upload, de latence et de jitter sont calculées par pays.

Redondance en amont

La redondance en amont correspond au nombre moyen de fournisseurs IPv4 en amont par systèmes autonomes (AS) actifs dans le pays. Plus le nombre de fournisseurs en amont par AS est élevé, plus l’écosystème global est résilient. La base de données CAIDA sur les relations entre AS est utilisée pour déduire la relation fournisseur-client.

Efficacité du peering

Le score d’efficacité de peering d’un pays est calculé en prenant le nombre de réseaux locaux échangeant du trafic aux IXP de ce pays et en le divisant par le nombre de réseaux locaux actifs (présents dans la table de routage globale) dans ce même pays. PeeringDB fournit des données sur les pairs aux IXP, tandis que le RIPEstat fournit des données sur les réseaux actifs.

$$PE_c= \frac{\sum P_i}{A}$$

Où :

$$PE_c = \text{Peering Efficiency of country c}$$ $$P_i = \text{Local ASes peering at IXP i}$$ $$A = \text{Number of active ASes for country c}$$

Concentration du marché

L'Internet Society Pulse IRI utilise l'indice de Herfindahl-Hirschman (IHH) pour calculer le score de concentration du marché. Les statistiques APNIC ASPOP fournissent des informations sur les parts de marché par AS et par pays. Nous agrégeons ces données par organisation à l'aide d'as2org+. L'IHH varie de 0 à 10 000, 0 indiquant une absence de concentration (marché concurrentiel) et 10 000 la présence d'un seul ASN, soit une part de marché de 100 %.

$$HHI_c = s_1^2 + s_2^2 + s_3^2 + \; ... \; s_n^2 $$

Où :

$$HHI_c = \text{HHI of country c}$$ $$s_n = \text{market share (\%) of }ASN_n \; \text{of country c}$$

Diversité des fournisseurs en amont

La diversité des fournisseurs en amont est un élément important à mesurer, car elle indique dans quelle mesure les relations d’un réseau donné sont concentrées sur un seul réseau ou un groupe de réseaux. Au niveau national, certains opérateurs de réseaux assurent un accès international, et, plus le nombre de fournisseurs d'Internet en amont est élevé, plus le pays est résilient en termes de dépendance du réseau.

La notion de dépendance du réseau peut être mesurée indirectement en utilisant l'hégémonie des AS, un score attribué à un réseau pour quantifier son niveau de centralisation mesuré sur la base du BGP. L'hégémonie des AS est comprise entre 0 et 1 et peut être interprétée comme la moyenne des chemins transitant par un nœud. Plus le score d'hégémonie des AS est élevé, plus la dépendance vis-à-vis de ce réseau est forte.

Chaque réseau d’un pays se voit attribuer un score d’hégémonie des AS en fonction de son degré de centralité pour les autres réseaux du même pays. Pour calculer la diversité de la répartition des fournisseurs en amont au niveau d’un pays, nous utilisons à nouveau l’HHI. Dans un scénario parfaitement diversifié (HHI = 0), tous les réseaux auraient le même score d’hégémonie des AS. Une valeur élevée de l’HHI signifie qu’un petit nombre de fournisseurs domine le marché de la connectivité Internet en amont.

Liste des indicateurs

Le tableau 1 présente la liste des indicateurs, avec leur unité de mesure et la source des informations.

Table 1. List of Indicators
Indicator Description Unit Source
Network Coverage Mobile network coverage includes 2G/3G/4G with a composite score provided by the GSMA Score (0 - 100) GSMA
Spectrum Allocation Spectrum allocation (composite score) Score (0 - 100) GSMA
Number of IXPs Number of IXPs per city where city has population > 300,000 for countries with population of <=20,000,000 and city has population > 1,000,000 otherwise. # of IXPs per city PeeringDB
Datacenters Number of datacenters # of datacenter per 10 million population PeeringDB
Mobile / Fixed Latency Median latency observed to the nearest Ookla server ms Ookla
Mobile / Fixed Jitter Median jiter observed to the nearest Ookla server ms Ookla
Mobile / Fixed Upload Speed Median upload throughput measured to the nearest Ookla server Mbps Ookla
Mobile / Fixed Download Speed Median download throughput measured to the nearest Ookla server Mbps Ookla
IPv6 IPv6 enabled end users % of IPv6 adoption Akamai, Facebook, Google, APNIC
HTTPS Pageloads using HTTPS % of page loads using HTTPS Mozilla
DNSSEC Validation Users validating DNSSEC % of users validating DNSSEC APNIC
DNSSEC Adoption Is the ccTLD DNSSEC signed? True or False DNS
MANRS Readiness MANRS score (filtering, global coordination, IRR, RPKI) Score (0 - 100) MANRS Observatory
Upstream Redundancy Average number of upstream IPv4 providers for a countries routed ASNs Score (0 - 100) CAIDA, NRO, RIPEstat
Secure Internet Servers Number of secure Internet servers detected on the country's networks # of secure servers per 1000 population World Bank
Global Cybersecurity Index Global Cybersecurity Index (Composite score) Score (0 - 100) ITU
DDoS Potential Potential DDoS threat a country represents Percentage Cybergreen
Affordability Mobile data and voice low-consumption basket. The basket is based on a monthly usage of a minimum of 70 voice minutes, 20 SMSs and 500 MB of data using at least 3G technology. % of GNI per capita ITU DataHub
Market Concentration Herfindahl-Hirschman Index (HHI) calculates the market concentration based on market share information per network Score (0 - 10000) APNIC, PeeringDB, CAIDA
Upstream Provider Diversity Herfindahl-Hirschman Index (HHI) calculated over the marketshare of transit networks with marketshare greater than 1% Score (0 - 10000) IIJ
Peering Efficiency Ratio of networks peering at IXPs vs routed ASes in a country Percentage PeeringDB, RIPEstat
Domain Count Domains registered by ccTLD # of domains per ccTLD per 1000 population DomainTools
EGDI E-Government Development Index Index (0 - 100) UN

Traitement des données

Les données brutes peuvent revêtir différentes formes et sont généralement recueillies dans des formats différents : certains ensembles de données sont distribués normalement, tandis que d'autres sont biaisés. Avant d’effectuer tout calcul ou toute agrégation, il est nécessaire d’imputer les données manquantes et d’identifier et traiter les valeurs aberrantes.

Données manquantes

Les techniques suivantes ont été utilisées pour imputer les données manquantes :

Table 2. Data imputation
Indicator Technique Details
Affordability Substitution We replace missing values with data from adjacent years
Fixed / Mobile Internet Performance Substitution We substitute mobile data for fixed data and vice-versa where values are otherwise unavailable
Maket Concentration Backward fill Initial gaps in data are filled with first available datapoints
Fixed / Mobile Internet Performance, HTTPS Adoption, Market Concentration, Secure Internet Servers Forward fill Gaps in data are filled with most recent earlier datapoints
IPv6 Substitution We impute a value of 0 where datapoints are otherwise unavailable
Spectrum Allocation, Network Coverage Substitution Replacement by data from a country from the same region with similar GDP per capita

Remise à l’échelle et traitement des valeurs aberrantes

Les échelles utilisées par les indicateurs sont également différentes. Par exemple, la latence est comprise entre 0 et 500 ms, tandis que le nombre de domaines pour un ccTLD peut être compris entre 0 et 2 000 000. Il est important de pondérer les données pour rendre les indicateurs comparables entre eux et pour éviter que la taille d'un pays représente un problème (car les pays avec une population ou un PIB plus important ont généralement davantage de réseaux, d'IXP, de centres de données, etc.).

En revanche, les valeurs aberrantes ont tendance à fausser les données et peuvent donc influencer le calcul du score global, surtout parce que l’IRI Pulse de l’Internet Society utilise la méthode de normalisation min-max pour mettre les données à l’échelle (voir la section sur la normalisation min-max ci-dessous). Si un indicateur a une valeur très élevée ou très faible, cela se reflétera dans le calcul min-max.

Les transformations suivantes ont été appliquées aux indicateurs répertoriés dans le cadre de la méthodologie :

  1. Normalisation par taille de population : nombre de centres de données, nombre de domaines
  2. Normalisation par nombre de villes : nombre de points d’échange Internet (IXP)
  3. Transformation logarithmique* : serveurs Internet sécurisés, performance Internet fixe/mobile

* Une transformation logarithmique est utile pour traiter des ensembles de données biaisés et pour écarter les valeurs extrêmes. Non seulement elle met les données à l’échelle, mais elle présente également l’avantage de gérer les valeurs aberrantes dans l’ensemble de données. La transformation logarithmique préserve les différences entre les valeurs.

Après la mise à l'échelle et la transformation des indicateurs ci-dessus, nous avons mesuré l'asymétrie et l'aplatissement des indicateurs restants. Pour les indicateurs présentant une asymétrie > 2 ou un aplatissement > 3,5 (seuils généraux pour la détection des valeurs aberrantes), l’IRI utilise la méthode de l’écart interquartile (IQR : Q3 - Q1) pour supprimer les valeurs aberrantes. Les règles suivantes sont appliquées :

  • Toute valeur supérieure à Q3 + 1,5 × IQR est remplacée par Q3 + 1,5 × IQR
  • Toute valeur inférieure à Q1 – 1,5 × IQR est remplacée par Q1 – 1,5 × IQR

Normalisation min-max

L'étape suivante, après le nettoyage et la transformation des données, est la normalisation. La normalisation est importante, car les indicateurs sont recueillis avec des unités de mesure différentes (pourcentage, ms, mo/s, nombre, etc.). Il est donc important de les convertir en une unité commune comprise entre 0 et 100, où 100 est généralement la meilleure valeur, et 0 la plus faible.

La méthode choisie est la normalisation min-max, une technique couramment utilisée par de nombreux indices réputés et, contrairement à d'autres techniques comme les échelles par classement ou par catégorie, la normalisation min-max assure la cohérence de l'intervalle entre les pays.

Vous trouverez ci-dessous la formule utilisée par l'IRI Pulse de l'Internet Society pour calculer la valeur d'un indicateur, selon qu’il soit positif ou négatif :

$$\text{Indicateur positif:}\,\,\,I_{k,c} = \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$ $$\text{Indicateur négatif :}\,\,\,I_{k,c} = 1 - \frac{x_{k,c} - Min(x_k)}{Max(x_k) - Min(x_k)}$$
$$\text{où}\; x\; \text{désigne la valeur brute de l'indicateur}\; k\; \text{du pays} \; c\; \text{et}\;I\;\text{désigne la valeur normalisée.}$$ $$Max / Min(x_k)\;\text{désigne la valeur min/max de l'indicateur}\;k\;\text{pour tous les pays.}$$

Les indicateurs positifs contribuent à l'augmentation de l'indice et les indicateurs négatifs entraînent sa diminution, ce qui explique pourquoi nous prenons la valeur delta :

$$(1 - I_{k,c})$$

Nous avons choisi de ne pas utiliser la technique de normalisation par score z (qui normalise autour de la moyenne et s’échelonne généralement entre 0 et 1), car tous les indicateurs ne suivaient pas une distribution normale.

Enfin, l’IRI ne comprend que les pays pour lesquels nous disposons de données (après imputation, etc.) pour tous les indicateurs et pour chaque trimestre depuis le premier trimestre 2019.

Pondération et agrégation

Attribution de coefficients

Il existe deux principales méthodes pour agréger les indicateurs normalisés en un score final :

  1. Un système de pondération ad hoc.
  2. Des techniques statistiques (d’optimisation).

L'IRI Pulse de l'Internet Society utilise un système de pondération (car c'est la technique la plus simple des deux) et se base sur les données recueillies par l'Internet Society par le biais de sondages et de discussions avec des experts dans ce domaine.

Pour le processus de pondération, l'importance de l'indicateur a également été prise en compte avec une approche basée sur le cycle de vie. Par exemple, pour le pilier Performance, la pondération suivante a été attribuée aux dimensions sous-jacentes : réseaux fixes (40 %) et réseaux mobiles (60 %). Une importance plus grande a été accordée aux réseaux mobiles, car ils sont davantage utilisés pour l’accès à Internet à l’échelle mondiale.

Dans le cadre de l’IRI Pulse de l’Internet Society, les indicateurs sont regroupés en différentes dimensions, et les dimensions en piliers, chacun fournissant des mesures quantitatives propres à un aspect spécifique de la résilience d’Internet. Vous trouverez ci-dessous un tableau avec les indicateurs, les dimensions et les piliers, ainsi que les coefficients qui leur sont affectés, utilisés dans le calcul de l'IRI Pulse de l'Internet Society.

Les coefficients sont révisés chaque année.

Table 3. Indicators, dimensions and pillars and associated weights
Pillar Weight (%) Dimension Weight (%) Indicator Weight (%)
Infrastructure 25 Mobile connectivity 50 Network Coverage 70
Spectrum Allocation 30
Enabling infrastructure 50 Number of IXPs 50
Datacenters 50
Performance 25 Fixed networks 40 Latency 20
Upload 30
Download 30
Jitter 20
Mobile networks 60 Latency 20
Upload 30
Download 30
Jitter 20
Enabling technologies and security 25 Enabling technologies 20 IPv6 30
HTTPS 70
DNS ecosystem 30 DNSSEC Validation 50
DNSSEC Adoption 50
Routing hygiene 30 MANRS Readiness 50
Upstream Redundancy 50
Security threat 20 Secure Internet Servers 30
Global Cybersecurity Index 40
DDoS Potential 30
Local ecosystem & Market readiness 25 Market structure 50 Affordability 40
Market concentration 30
Upstream provider diversity 30
Traffic localization 50 Peering efficiency 40
Domain count 30
EGDI 30

Agrégation

L'IRI Pulse de l'Internet Society utilise une formule de somme pondérée à chaque niveau (indicateur, dimension et pilier) pour agréger les données en un score composite. La formule suivante a été utilisée :

$$IRI_c = \sum_i^n(w_i \cdot P_{i,c})$$

Où :

$$P_{i,c}=\sum_i^n(w_i \cdot D_{i,c})$$

Et où :

$$D_{i,c}=\sum_i^n(w_i \cdot I_{i,c})$$

Autrement dit, l’indice final 𝐼𝑅𝐼 du pays « c » correspond à la somme des piliers « P » pondérés. Un pilier correspond à la somme pondérée des dimensions sous-jacentes « D », et une dimension correspond à la somme pondérée des indicateurs « I », le tout pour le pays « c ».

Retours

Pour toute question, remarque ou retour concernant l’IRI, veuillez contacter l'équipe Pulse de l'Internet Society ([email protected]).

Remerciements

L’Internet Society tient à remercier les personnes suivantes pour leur précieuse contribution à la conception de l’Indice de résilience d'Internet Pulse (IRI) de l'Internet Society. Amreesh Phokeer (Internet Society), Kevin Chege (Internet Society), Assane Gueye (Carnegie Mellon University Africa), Josiah Chavula (University of Cape Town) et Ahmed Elmokashfi (Simula Research Lab).