Photo of a lady standing in front of arrival departure board at an airport

Le Aleph (ℵ) : Révéler la géographie cachée de l’internet à partir du DNS

Picture of Kedar Thiagarajan
Guest Author | Northwestern University
Catégories:
Twitter logo
LinkedIn logo
Facebook logo
November 27, 2025
En bref
  • Un nouveau système guidé par un grand modèle linguistique, The Aleph, peut décoder des données géographiques à partir d’enregistrements DNS.
  • Le système indique que 58 % des opérateurs encodent des informations de localisation ; les indices couvrent plus de 6 000 villes dans plus de 200 pays.
  • Une meilleure compréhension de la géolocalisation de l’infrastructure Internet facilite la recherche et la mesure, les normes opérationnelles et la politique publique concernant l’équité, la résilience et la concentration de l’infrastructure.

La localisation de l’infrastructure physique de l’internet (routeurs, serveurs et autres dispositifs) semble être un problème simple, mais dans la pratique, elle est étonnamment difficile.

Les enregistrements PTR (reverse lookup) du système de noms de domaine (DNS) constituent une source d’informations géographiques souvent négligée. Les opérateurs intègrent fréquemment des indications de localisation, y compris des codes d’aéroport, des mnémoniques de ville ou des étiquettes de site interne, dans les noms d’hôtes PTR, tels que :

  • 108-71-80-115.lightspeed.chcgil.sbcglobal.net
  • et3-42-2.es02.ord001.ix.nflxvideo.net

Ces noms sont diffusés dans le DNS mondial, cachés à la vue de tous. Le défi consiste à les décoder de manière fiable et à grande échelle.

Introduction L’Aleph

Aleph est un système guidé par un grand modèle linguistique qui permet d’extraire des données géographiques des enregistrements PTR. Il a deux fonctions :

  1. Apprend le format des noms d’hôtes PTR par opérateur, par exemple, pop-<CITY>-rtrN .example.net.
  2. Apprend le système de géocodage utilisé par chaque opérateur, comme les codes d’aéroport(ORD), les mnémoniques de ville(nyk) ou les étiquettes personnalisées.

À partir de ces données, il élabore des règles précises basées sur des expressions rationnelles et des correspondances réutilisables qui permettent la géolocalisation à grande échelle des équipements de réseau en utilisant uniquement des chaînes PTR.

Là où les approches traditionnelles s’appuient sur des modèles fragiles et adaptés à la main ou sur une curation manuelle coûteuse, The Aleph établit des règles automatiquement pour.. :

  • Détecter les formats PTR par réseau
  • Découvrez comment les indices géographiques sont intégrés
  • Affiner ses modèles avec davantage de données
  • Produire des règles réutilisables que d’autres peuvent valider ou étendre

Un milliard de PTR plus tard…

Nous avons exécuté The Aleph sur un instantané de février 2024 du corpus PTR d’OpenIntel, ciblant 2 646 systèmes autonomes (AS) couvrant ~90% de tous les enregistrements PTR et ~84% de la population Internet. L’exécution complète a duré deux jours et a coûté ~$500 en utilisant GPT-4 Turbo (via des comptes personnels à taux limité).

Les résultats :

  • 1,16 milliard d’enregistrements PTR analysés
  • 224 millions d’enregistrements cartographiés dans des villes (~19% de couverture)
  • 4 910 regex générées pour 1 551 réseaux (58%)
  • 16 108 géo-indices uniques cartographiés dans 6 025 villes de 206 pays

Ces correspondances révèlent une remarquable diversité dans les styles d’encodage des opérateurs. Si les codes d’aéroport tels que JFK ou ORD sont courants, la majorité des indices – environ deux tiers – sont des étiquettes personnalisées, telles que nyk (New York) ou ffm (Francfort) d’Arelion. Même au sein d’une ville, plusieurs systèmes peuvent coexister : Tokyo en compte plus d’une douzaine ; Chicago apparaît sous forme de chi, chgo, northlake et diverses formes ord*.

C’est précisément pour cette raison qu’une approche apprise et adaptée à chaque fournisseur est préférable à une heuristique unique.

Quelle est sa précision ?

Nous avons validé The Aleph à l’aide de deux méthodes indépendantes :

  1. La vérité de terrain des opérateurs sur les réseaux d’accès, de transit et d’informatique dématérialisée.
  2. Sondage de latence basé sur le RTT pour s’assurer que les emplacements déduits correspondent aux distances prévues sur le réseau.

Ces deux contrôles ont confirmé la grande précision du système, en particulier lorsque les modèles sont appris par fournisseur et validés de manière croisée.

Pourquoi c’est important

Une meilleure géolocalisation de l’infrastructure Internet permet :

  • Recherche et mesure: Des cartes de pannes, des analyses de routage et des mesures de performance plus précises.
  • Opérations: Détection des incohérences de dénomination, des erreurs d’étiquetage et des dérives.
  • Politique publique: L’équité des infrastructures, la résilience et l’analyse de la concentration sont des thèmes essentiels pour des organisations telles que Internet Society Pulse.

Nous nous efforçons de :

  • Publication d’expressions rationnelles et de correspondances plus ouvertes et spécifiques aux fournisseurs
  • Étendre la couverture aux AS à longue traîne
  • Invitez les opérateurs à publier ou à partager leurs conventions de dénomination ou leurs échantillons de PTR.

Vous pouvez soumettre des échantillons ou essayer l’API de The Aleph à l’adresse suivante thealeph.ai.

Pour en savoir plus, lisez notre article“The Aleph : Decoding Geographic Information from DNS PTR Records Using Large Language Models” (ACM CoNEXT 2025).

Kedar Thiagarajan est doctorant à la Northwestern University.

Collaborateurs : Esteban Carisimo et Fabián E. Bustamante, Northwestern University.

Les opinions exprimées par les auteurs de ce blog sont les leurs et ne reflètent pas nécessairement celles de l’Internet Society.


Image par Jan Vašek de Pixabay

Contenus traduits

Les versions française et espagnole du contenu disponible sur le site Pulse de l’Internet Society peuvent provenir de services de traduction automatique et peuvent donc ne pas refléter avec exactitude le texte d’origine.

A noter que la version officielle est le texte en anglais.