Foto de una señora delante de un tablero de salidas en un aeropuerto

El Aleph (ℵ): Revelando la geografía oculta de Internet desde el DNS

Photo of Kedar Thiagarajan
Categorías:

En resumen

  • Un nuevo sistema guiado por un gran modelo lingüístico, el Aleph, puede descodificar datos geográficos a partir de registros DNS.
  • El sistema indica que el 58% de los operadores codifican información sobre su ubicación; las pistas abarcan más de 6.000 ciudades en más de 200 países.
  • Una mejor comprensión de la geolocalización de las infraestructuras de Internet facilita la investigación y la medición, las normas operativas y las políticas públicas en torno a la equidad, la resistencia y la concentración de las infraestructuras.

Localizar la infraestructura física que hay detrás de Internet -enrutadores, servidores y otros dispositivos- parece un problema sencillo, pero en la práctica resulta sorprendentemente difícil. 

Una fuente de información geográfica que a menudo se pasa por alto son los registros de búsqueda inversa (PTR) del Sistema de Nombres de Dominio (DNS). Los operadores suelen incrustar pistas de localización, como códigos de aeropuertos, mnemónicos de ciudades o etiquetas de sitios internos, en los nombres de host PTR, como:

  • 108-71-80-115.lightspeed.chcgil.sbcglobal.net
  • et3-42-2.es02.ord001.ix.nflxvideo.net

Estos nombres se difunden a través del DNS global, ocultándose a plena vista. El reto consiste en descodificarlos de forma fiable y a escala.

Presentación del Aleph

El Aleph es un gran sistema guiado por modelos lingüísticos para extraer datos geográficos de los registros PTR. Hace dos cosas:

  1. Aprende el formato de los nombres de host PTR por operador, por ejemplo, pop-<CIUDAD>-rtrN.ejemplo.net.
  2. Aprende el esquema de geocodificación que utiliza cada operador, como los códigos de aeropuerto (ORD), mnemónicos de ciudades (nyk), o etiquetas personalizadas.

A partir de ellas, construye reglas precisas basadas en regex y mapeos reutilizables que permiten la geolocalización a gran escala de dispositivos de red utilizando únicamente cadenas PTR.

Donde los enfoques tradicionales se basan en patrones frágiles, ajustados a mano o en una costosa curación manual, The Aleph arranca las reglas automáticamente para:

  • Detectar formatos PTR por red
  • Sepa cómo se incrustan las geoindicaciones
  • Perfeccionar sus patrones con más datos
  • Produzca reglas reutilizables que otros puedan validar o ampliar

Mil millones de PTRs después...

Ejecutamos The Aleph en una instantánea de febrero de 2024 del corpus de PTR de OpenIntel, centrándonos en 2.646 sistemas autónomos (AS) que cubren ~90% de todos los registros PTR y ~84% de la población de Internet. La ejecución completa duró dos días y costó ~500 dólares utilizando GPT-4 Turbo (a través de cuentas personales con tarifa limitada).

Los resultados:

  • 1.160 millones de registros PTR analizados
  • 224 millones de registros asignados a ciudades (~19% de cobertura)
  • 4.910 regexes generados para 1.551 redes (58%)
  • 16.108 geo-pistas únicas mapeadas en 6.025 ciudades de 206 países

Estas correspondencias revelan una notable diversidad en los estilos de codificación de los operadores. Mientras que los códigos de aeropuerto como JFK o ORD son comunes, la mayoría de las pistas -alrededor de dos tercios- son etiquetas personalizadas, como las de Arelion nyk (Nueva York) o ffm (Fráncfort). Incluso dentro de una misma ciudad pueden coexistir múltiples esquemas: Tokio tiene más de una docena; Chicago aparece como chi, chgo, northlakey varios ord* formas.

Esta es precisamente la razón por la que un enfoque aprendido y por proveedor supera a la heurística de talla única.

¿Cuál es su grado de precisión?

Hemos validado el Aleph utilizando dos métodos independientes:

  1. La verdad sobre el terreno de los operadores a través de las redes de acceso, tránsito y nube.
  2. Sondeo de latencia basado en RTT para garantizar que las ubicaciones inferidas se ajustan a las distancias de red previstas.

Ambas comprobaciones confirmaron la gran precisión del sistema, especialmente cuando los patrones se aprenden por proveedor y se validan de forma cruzada.

Por qué es importante

Una mejor geolocalización de la infraestructura de Internet permite:

  • Investigación y medición: Mapas de cortes, análisis de rutas y métricas de rendimiento más precisos.
  • Operaciones: Detección de incoherencias en la denominación, etiquetados erróneos y desviaciones.
  • Política pública: Equidad de las infraestructuras, resiliencia y análisis de la concentración, temas centrales para organizaciones como Internet Society Pulse.

Estamos trabajando para:

  • Libere regexes y mapeos más abiertos y específicos del proveedor
  • Ampliar la cobertura a los AS de cola larga
  • Invitar a los operadores a publicar o compartir sus convenciones de nomenclatura o muestras de PTR

Puede enviar muestras o probar la API de The Aleph en thealeph.ai.

Para saber más, lea nuestro artículo'El Aleph: Decoding Geographic Information from DNS PTR Records Using Large Language Models' (ACM CoNEXT 2025).

Kedar Thiagarajan es doctorando en la Universidad Northwestern.

Colaboradores: Esteban Carisimo y Fabián E. Bustamante, Universidad Northwestern. 

Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.


Imagen de Jan Vašek de Pixabay