Photo of a sign post showing distance to different cities

Où sont hébergés les sites web les plus populaires de votre pays ?

Picture of James Madeley
Guest Author | Loughborough University and Pulse Research Fellow
Catégories:
Twitter logo
LinkedIn logo
Facebook logo
June 21, 2024

L’accès au contenu Internet stocké sur des serveurs situés dans votre pays est plus rapide, moins coûteux et plus fiable que la recherche de contenu à partir d’un autre pays. L’infrastructure habilitante, telle que les points d’échange Internet (IXP), les centres de données et les caches de contenu, facilite ce processus. Toutefois, cette infrastructure n’est largement disponible que dans certains pays.

L’Internet Society contribue à leur mise en place et à leur promotion depuis de nombreuses années. Elle s’est récemment fixé un plan ambitieux pour qu’au moins la moitié du trafic Internet dans certaines économies reste locale d’ici à 2025. Pour plus d’informations, consultez la méthodologie de la vision 50/50 de l’Internet Society.

Pour réussir dans cet effort, nous devons comprendre quelle quantité de contenu est actuellement hébergée localement et suivre les changements.

Lire : Mesurer la localité du trafic Internet : un premier pas vers une vision 50/50

Mon travail en tant que 2024 Pulse Research Fellow consiste à mettre en œuvre et à évaluer une plateforme permettant de réaliser des mesures de localité. Ce billet donne un aperçu de l’état actuel de mes recherches à mi-parcours de la bourse.

Il est difficile de comprendre les schémas de trafic Internet

Pour déterminer si le trafic est local, il faut d’abord comprendre la popularité du contenu. En règle générale, la majeure partie du trafic Internet provient des sites web les plus populaires. Il existe plusieurs fournisseurs de listes de diffusion sur Internet, tels que Similarweb, Cloudflare et Tranco. Dans cette étude, nous avons utilisé le rapport Chrome User Experience (CrUX) de Google, qui fournit une ventilation mensuelle des 1 000 premiers sites web (et plus, si nécessaire) consultés par les utilisateurs de Chrome, répartis par pays. Des études antérieures ont montré que le rapport CrUX est plus précis que d’autres listes de sites.

Idéalement, le volume de trafic vers des domaines spécifiques aurait été un indicateur plus approprié pour mesurer la localité du trafic. Malheureusement, il est très difficile d’accéder aux données relatives au volume de trafic par pays, car ces informations ne sont généralement disponibles que pour les fournisseurs d’accès à Internet (FAI). Nous avons donc décidé d’utiliser la liste des sites web les plus populaires comme indicateur de la localisation du trafic.

Comment le contenu est-il hébergé ?

Les sites web ont trois façons d’héberger du contenu : de manière native, à l’aide de réseaux de diffusion de contenu (CDN) ou en combinant les deux. Les CDN disposent de serveurs répartis géographiquement pour héberger et servir le contenu à proximité des utilisateurs finaux. Ce faisant, ils réduisent considérablement le temps de latence de l’accès au contenu. Certains services, tels que la diffusion en ligne ou les plateformes de médias sociaux, exploitent leurs propres caches au niveau mondial (par exemple, Netflix OpenConnect et Facebook Content Distribution Network).

Une fois que nous avons la liste des sites web par pays, nous déterminons s’ils sont hébergés en mode natif ou sur une plateforme CDN. Pour ce faire, nous effectuons une série de recherches sur l’IP du domaine (WHOIS, CNAME et en-tête de réponse HTTP). Nous utilisons une version modifiée de l’outil FindCDN pour effectuer nos mesures.

L’avantage de regrouper les sites web par plateforme d’hébergement (c’est-à-dire par CDN) est qu’il suffit de savoir si le CDN est local dans un pays. On peut raisonnablement supposer que les dispositifs seront envoyés aux mêmes points de terminaison pour tous les sites web utilisant un CDN spécifique, de sorte que les tests individuels deviennent redondants.

Géolocalisation des caches CDN

Pour déterminer la localité des caches CDN, nous analysons les indices de localisation (geo-hints) trouvés lors de l’extraction d’objets de chaque CDN. Pour ce faire, nous devons effectuer ces mesures à partir du pays qui nous intéresse. Nous utilisons des mandataires résidentiels et tirons parti de leur vaste réseau pour effectuer des mesures au niveau local.

La plupart des plateformes CDN testées fournissent des “geohints” dans l’en-tête de la réponse HTTP, généralement sous la forme d’un code IATA d’aéroport. Nous pouvons alors déterminer si le point de présence est le même que notre source de test.

Une fois les données collectées par pays, nous pouvons estimer le nombre de domaines, parmi les 1 000 premiers, qui sont hébergés localement.

En filtrant les résultats, on obtient des perspectives intéressantes sur l’état général de la circulation dans la localité. Par exemple, nous pouvons classer les sites web par catégories et voir si le type de site influe sur la probabilité qu’il soit local. Nous pouvons également voir quels sont les fournisseurs qui ont le plus de sites locaux.

Il existe également des moyens plus évidents d’examiner les données, par exemple en déterminant si le continent ou le statut économique d’un pays a une incidence sur la localité. Au fil du temps, nous pouvons également comprendre comment les questions géopolitiques affectent la localité du trafic.

Tout cela, et nous ne sommes qu’à mi-chemin !

La méthodologie de recherche est presque achevée et les résultats sont en train d’être rassemblés.

Nous collecterons ces données pour tous les pays chaque semaine afin de pouvoir suivre l’évolution de la localité du contenu. Le suivi de ces données nous aidera à orienter notre travail de plaidoyer. En outre, nous étudierons le rôle des IXP pour rapprocher le contenu des utilisateurs finaux.

Les prochaines étapes consisteront à produire des visualisations (voir un exemple ci-dessous) et à formaliser notre processus dans un article complet.

Jusqu’à présent, ce projet a été très satisfaisant. Travailler à la réalisation d’un objectif important tel que la vision 50/50 peut parfois sembler décourageant, mais les jalons sont clairs et nous connaissons les prochaines étapes. J’ai hâte de voir ce que nous aurons accompli à la fin de cette bourse et ce que le travail pourra donner à l’avenir.