Photo d'un panneau indiquant la distance entre différentes villes

Où sont hébergés les sites web les plus populaires de votre pays ?

Photo of James Madeley
Catégories:

L'accès au contenu Internet stocké sur des serveurs situés dans votre pays est plus rapide, moins coûteux et plus fiable que la recherche de contenu à partir d'un autre pays. Des infrastructures telles que les points d'échange Internet (IXP), les centres de données et les caches de contenu facilitent cette opération. Toutefois, cette infrastructure n'est largement disponible que dans certains pays.

L'Internet Society contribue à leur mise en place et à leur promotion depuis de nombreuses années. Elle s'est récemment fixé un plan ambitieux pour qu'au moins la moitié du trafic Internet dans certaines économies reste local d'ici à 2025. Pour plus d'informations, consultez la méthodologie de la vision 50/50 de l'Internet Society.

Pour réussir dans cet effort, nous devons comprendre quelle quantité de contenu est actuellement hébergée localement et suivre les changements.

Lire : Mesurer la localité du trafic Internet : un premier pas vers une vision 50/50

Mon travail en tant que boursier de recherche 2024 Pulse consiste à mettre en œuvre et à évaluer une plateforme permettant d'effectuer des mesures de localité. Ce billet donne un aperçu de l'état actuel de mes recherches à mi-parcours de la bourse.

Il est difficile de comprendre les schémas de trafic Internet

Pour déterminer si le trafic est local, il faut d'abord comprendre la popularité du contenu. En règle générale, la majeure partie du trafic Internet provient des sites Web les plus populaires. Il existe plusieurs fournisseurs de listes de sites Internet les plus populaires, tels que Similarweb, Cloudflare et Tranco. Dans cette étude, nous avons utilisé le rapport Chrome User Experience (CrUX) de Google, qui fournit une ventilation mensuelle des 1 000 premiers sites web (et plus, si nécessaire) consultés par les utilisateurs de Chrome, répartis par pays. Des études antérieures ont montré que le rapport CrUX est plus précis que d'autres listes de sites. 

Idéalement, le volume de trafic vers des domaines spécifiques aurait été un indicateur plus approprié pour mesurer la localité du trafic. Malheureusement, il est très difficile d'accéder aux données relatives au volume de trafic par pays, car ces informations ne sont généralement disponibles que pour les fournisseurs d'accès à Internet (FAI). Nous avons donc décidé d'utiliser la liste des sites web les plus populaires comme indicateur de la localité du trafic. 

Comment le contenu est-il hébergé ?

Les sites web ont trois façons d'héberger du contenu : de manière native, à l'aide de réseaux de diffusion de contenu (CDN) ou en combinant les deux. Les CDN disposent de serveurs répartis géographiquement pour héberger et servir le contenu à proximité des utilisateurs finaux. Ce faisant, ils réduisent considérablement le temps de latence de l'accès au contenu. Certains services, tels que la diffusion en ligne ou les plateformes de médias sociaux, exploitent leurs propres caches au niveau mondial (par exemple, Netflix OpenConnect et Facebook Content Distribution Network).  

Une fois que nous avons la liste des sites web par pays, nous déterminons s'ils sont hébergés nativement ou sur une plateforme CDN. Pour ce faire, nous effectuons une série de recherches sur l'IP du domaine (WHOIS, CNAME et en-tête de réponse HTTP). Nous utilisons une version modifiée de l'outil FindCDN pour effectuer nos mesures.  

L'avantage de regrouper les sites web par plateforme d'hébergement (c'est-à-dire par CDN) est qu'il suffit de savoir si le CDN est local dans un pays. On peut raisonnablement supposer que les dispositifs seront envoyés aux mêmes points de terminaison pour tous les sites web utilisant un CDN spécifique, de sorte que les tests individuels deviennent superflus.  

Géolocalisation des caches CDN

Pour déterminer la localité des caches CDN, nous analysons les indices de localisation (geo-hints) trouvés lors de la récupération d'objets de chaque CDN. Pour ce faire, nous devons effectuer ces mesures à partir du pays qui nous intéresse. Nous utilisons des proxys résidentiels et tirons parti de leur vaste réseau pour effectuer les mesures localement. 

La plupart des plateformes CDN testées fournissent des "geohints" dans l'en-tête de la réponse HTTP, généralement sous la forme d'un code IATA d'aéroport. Nous pouvons alors déterminer si le point de présence est le même que notre source de test. 

Une fois les données collectées par pays, nous pouvons estimer le nombre de domaines, parmi les 1 000 premiers, qui sont hébergés localement.

Le filtrage des résultats permet d'obtenir des perspectives intéressantes sur l'état général de la localisation du trafic. Par exemple, nous pouvons classer les sites web par catégories et voir si le type de site influe sur la probabilité qu'il soit local. Nous pouvons également voir quels fournisseurs ont les sites les plus locaux.

Il existe également des moyens plus évidents d'examiner les données, par exemple en déterminant si le continent ou le statut économique d'un pays a une incidence sur la localité. Au fil du temps, nous pouvons également comprendre comment les questions géopolitiques affectent la localité du trafic.

Tout cela, et nous ne sommes qu'à mi-chemin !

La méthodologie de recherche est presque achevée et les résultats sont en train d'être rassemblés.

Nous collecterons ces données pour tous les pays chaque semaine afin de pouvoir suivre l'évolution du contenu local. Le suivi de ces données nous aidera à orienter notre travail de sensibilisation. En outre, nous étudierons le rôle des IXP pour rapprocher le contenu des utilisateurs finaux.  

Les prochaines étapes consisteront à produire des visualisations (voir un exemple ci-dessous) et à formaliser notre processus dans un article complet.

Jusqu'à présent, ce projet a été très satisfaisant. Travailler à la réalisation d'un objectif aussi important que la vision 50/50 peut parfois sembler décourageant, mais les jalons sont clairs et nous connaissons les prochaines étapes. J'ai hâte de voir ce que nous aurons réalisé à la fin de cette bourse et ce que le travail pourra donner à l'avenir.

Tags: