Qui dirige le trafic Internet ? Comprendre l'opacité dans la sélection des répliques de CDN
En bref :
- Les décisions d'orientation du trafic prises par les réseaux de diffusion de contenu (CDN) ont une incidence sur la latence, la résilience et la souveraineté.
- Une étude récente montre que le pilotage par DNS est la stratégie la plus couramment utilisée par les réseaux de diffusion de contenu, mais les fournisseurs ne s'appuient pas toujours sur un seul mécanisme de pilotage et peuvent utiliser une combinaison d'approches.
- Les résultats et la méthodologie libre fournissent une base pour classer les stratégies CDN et permettre des discussions plus éclairées sur la responsabilité dans l'infrastructure de l'internet.
Derrière de nombreuses demandes de sites web, en particulier celles qui sont hébergées par des réseaux de diffusion de contenu (CDN), se cache une décision largement invisible concernant le serveur qui répondra. Cette décision influe sur la rapidité de chargement d'une page, sur le fait que les données restent à l'intérieur des frontières nationales ou voyagent à l'étranger, et sur la résilience des services en ligne en cas de perturbation du réseau.
Dans notre étude publiée à NINeS'26, nous présentons une méthodologie permettant de déduire le mécanisme à l'origine de cette décision, connue sous le nom de sélection de réplique, qui est devenue l'un des points de contrôle silencieux de l'internet.
Pourquoi il est important de comprendre les décisions relatives au trafic CDN
Les CDN gèrent de grands systèmes distribués qui placent des copies de contenu sur des serveurs dans le monde entier. Lorsque vous ouvrez un site, le CDN doit décider quel serveur réplique doit répondre à votre demande. Cela peut sembler un choix technique de routine, mais il a des conséquences réelles.
La sélection des répliques affecte la latence, la résilience et même la souveraineté, en particulier lorsque les demandes des utilisateurs locaux sont dirigées vers des infrastructures situées dans d'autres pays. Le problème est que ces décisions d'orientation sont généralement invisibles en dehors du CDN lui-même, y compris pour les utilisateurs, les régulateurs et même de nombreux opérateurs de réseau.
Cette opacité est d'autant plus importante que l'écosystème du système de noms de domaine (DNS) est de plus en plus concentré. Pour les CDN qui s'appuient sur un pilotage basé sur le DNS, la localisation du résolveur sert de proxy pour les utilisateurs. Mais les résolveurs publics centralisés peuvent desservir des utilisateurs dans de vastes régions, ce qui fait d'eux un substitut imparfait de l'endroit où se trouvent réellement les utilisateurs. Par conséquent, la position géographique et les choix politiques des résolveurs DNS tiers peuvent influencer la destination du trafic.
En d'autres termes, l'entité qui façonne l'expérience d'un utilisateur peut ne pas être l'utilisateur ou même le réseau de l'utilisateur, mais une combinaison opaque de logique CDN et d'infrastructure DNS centralisée.
Peut-on déduire comment les CDN orientent le trafic ?
Pour répondre à cette question, nous avons utilisé des sondes RIPE Atlas comme points d'observation des clients et résolu le même contenu hébergé par le CDN par le biais de résolveurs DNS à différentes échelles géographiques, de la plus proche à la plus éloignée. Nous avons ensuite mesuré l'évolution de la latence vers le serveur assigné.
- Pilotage basé sur le DNS : les distributions de latence se séparent plus fortement lorsque l'étendue du résolveur change, car différents emplacements de résolveur peuvent conduire à différentes répliques.
- IP anycast : la distribution reste largement inchangée car la même IP anycast est acheminée vers une instance proche, quel que soit le choix du résolveur.
- L'anycast régional se situe entre les deux : il tend à ressembler à l'anycast IP à l'intérieur d'une région, mais ressemble davantage à un pilotage basé sur le DNS à travers les régions.
Nous avons d'abord validé cette méthode sur des fournisseurs bien connus. Elle a correctement récupéré Akamai comme étant basé sur le DNS, Cloudflare comme étant basé sur l'anycast, et Edgio comme étant l'anycast régional.
12 sur 17 Les CDN utilisent la redirection basée sur le DNS
Si les méthodes de sélection des répliques de quelques grands fournisseurs sont déjà assez bien comprises, on en sait beaucoup moins sur les nombreux CDN d'importance régionale.
Nous avons appliqué notre méthodologie à 17 CDN uniques desservant les 1 000 premiers sites web dans 19 pays, un ensemble qui couvre environ 66 % des utilisateurs d'Internet dans le monde. Ces CDN comprennent à la fois des hyperscalers et des fournisseurs régionaux importants tels que Azion, Medianova et NGENIX.
La principale conclusion est la suivante : La direction basée sur le DNS domine toujours. Sur l'ensemble de nos données, 12 des 17 CDN ont utilisé une redirection basée sur le DNS et, en termes d'octets livrés, les systèmes basés sur le DNS ont dominé dans la plupart des régions. Cela est important car, dans la pratique, cela signifie que la consolidation des résolveurs peut déterminer la destination du trafic, la façon dont les défaillances se propagent et le degré de contrôle que les réseaux locaux conservent.
| Location | Users (%) | DNS-based (%) | Anycast (%) | Regional Anycast ( | Mixed (%) |
|---|---|---|---|---|---|
| Europe | 60 | 27.6 | 41.4 | 2.6 | 28.4 |
| France | 1.1 | 27.5 | 38.5 | 3.9 | 30.2 |
| Germany | 1.5 | 30.8 | 42.2 | 1.6 | 25.4 |
| Russia | 2.3 | 9.9 | 63.1 | 0.6 | 26.4 |
| Spain | 0.8 | 44.5 | 27.4 | 3.1 | 25 |
| Turkey | 1.3 | 26.7 | 46 | 3.3 | 24 |
| United Kingdom | 1.2 | 28 | 33.8 | 3 | 35.3 |
| North America | 89.3 | 34.7 | 32.3 | 3.8 | 29.1 |
| US | 5.5 | 34.7 | 32.3 | 3.8 | 29.1 |
| South America | 60 | 35.5 | 33.1 | 1.4 | 30 |
| Argentina | 0.8 | 34.2 | 33.7 | 1.1 | 31 |
| Brazil | 3.3 | 35.7 | 33.1 | 1.8 | 29.5 |
| Asia | 70.1 | 26.3 | 43.8 | 1.8 | 28.1 |
| China | 18.8 | 48.1 | 30 | 1.3 | 20.6 |
| India | 15.5 | 28.1 | 40.1 | 0.8 | 31.1 |
| Indonesia | 3.9 | 13.6 | 53.5 | 2.7 | 30.2 |
| United Arab Emirates | 0.2 | 20.5 | 40 | 1.8 | 37.7 |
| Oceania | 75 | 40.1 | 27.1 | 1.8 | 30.6 |
| Australia | 0.4 | 40.1 | 27.1 | 1.8 | 30.6 |
| Africa | 50.1 | 56.7 | 26.1 | 0.9 | 16.4 |
| Algeria | 0.7 | 22.1 | 51 | 1.7 | 25.1 |
| Egypt | 1 | 16.9 | 55.4 | 0.3 | 27.4 |
| Ghana | 0.3 | 82 | 9.6 | 0.4 | 8 |
| Nigeria | 2.9 | 36.5 | 37.3 | 2.5 | 23.7 |
| South Africa | 0.6 | 14.3 | 52.9 | 0.9 | 31.9 |
| World Total | 66 | 40.9 | 33.6 | 1.7 | 23.9 |
En termes d'octets livrés, le pilotage par le DNS domine globalement, ce qui suggère que le trafic le plus lourd repose plus souvent sur une sélection basée sur le DNS.
Nous avons également constaté que les fournisseurs ne s'appuient pas toujours sur une stratégie de pilotage unique. Google, par exemple, a montré une répartition à peu près égale entre le comportement basé sur le DNS et le comportement anycast sur l'ensemble des ressources que nous avons étudiées. Les services d'origine tels que Google et YouTube ont tendance à être orientés vers le DNS, tandis que certains contenus de tiers hébergés sur l'infrastructure de Google semblent davantage orientés vers la diffusion aléatoire.
Cela montre que même au sein d'un même fournisseur, différents services peuvent être pilotés de différentes manières, différences que notre méthodologie peut distinguer sans accès privilégié.
Quelle est l'importance de l'approche dominante en matière de pilotage ?
Parce que la sélection des répliques est plus importante que la seule performance. Elle soulève des questions sur
- Résilience: Une telle puissance de reroutage doit-elle reposer sur un petit nombre de résolveurs et des politiques CDN opaques, et qu'est-ce que cela signifie pour la tolérance aux pannes en cas de défaillance du réseau ?
- Souveraineté: Lorsque le trafic régional ou gouvernemental est dirigé vers l'étranger, qu'est-ce que cela signifie pour la juridiction et l'autonomie ?
- Le contrôle: L'anycast global, bien que simple d'un point de vue opérationnel, cède-t-il trop de contrôle à BGP, et les systèmes hybrides qui mélangent le DNS et l'anycast aggravent-ils cette opacité ?
En transformant la sélection des répliques en quelque chose de mesurable de l'extérieur, notre méthodologie fournit une base pour classer les stratégies CDN et permettre des discussions plus informées sur la responsabilité dans l'infrastructure de l'Internet. Si nous voulons des discussions sérieuses sur la responsabilité, la souveraineté numérique et la concentration dans l'infrastructure de l'internet, nous devons d'abord avoir une visibilité sur la façon dont le pilotage fonctionne réellement.
Pour plus de détails sur la méthodologie et les résultats, lisez notre article.
Rashna Kumar est en dernière année de doctorat dans le groupe de recherche AquaLab du professeur Bustamante, au département d'informatique de la l'Université du Nord-Ouest.
Collaborateurs : Fabián E. Bustamante (Northwestern University), Marcel Flores (Netflix)
Les opinions exprimées par les auteurs de ce blog sont les leurs et ne reflètent pas nécessairement celles de l'Internet Society.
Photo par Eric Via Wikimedia Commons
