- Un nuevo sistema guiado por un gran modelo lingüístico, el Aleph, puede descodificar datos geográficos a partir de registros DNS.
- El sistema indica que el 58% de los operadores codifican información de localización; las pistas abarcan más de 6.000 ciudades de más de 200 países.
- Una mejor comprensión de la geolocalización de la infraestructura de Internet facilita la investigación y la medición, las normas operativas y la política pública en torno a la equidad, la resistencia y la concentración de la infraestructura.
Localizar la infraestructura física que hay detrás de Internet -enrutadores, servidores y otros dispositivos- parece un problema sencillo, pero en la práctica es sorprendentemente difícil.
Una fuente de información geográfica que a menudo se pasa por alto son los registros de búsqueda inversa (PTR) del Sistema de Nombres de Dominio (DNS). Con frecuencia, los operadores incrustan pistas sobre la ubicación, como códigos de aeropuerto, mnemónicos de ciudad o etiquetas internas del sitio, en los nombres de host PTR, como por ejemplo:
- 108-71-80-115.lightspeed.chcgil.sbcglobal.net
- et3-42-2.es02.ord001.ix.nflxvideo.net
Estos nombres se difunden a través del DNS global, ocultándose a plena vista. El reto es descifrarlos de forma fiable y a escala.
Presentación de El Aleph
El Aleph es un gran sistema guiado por modelos lingüísticos para extraer datos geográficos de los registros PTR. Hace dos cosas
- Aprende el formato de los nombres de host PTR por operador, por ejemplo, pop-<CIUDAD>-rtrN .ejemplo.net.
- Aprende el esquema de geocodificación que utiliza cada operador, como códigos de aeropuerto(ORD), mnemónicos de ciudad(nyk) o etiquetas personalizadas.
A partir de ellas, construye reglas precisas basadas en regex y mapeos reutilizables que permiten la geolocalización a gran escala de dispositivos de red utilizando sólo cadenas PTR.
Donde los enfoques tradicionales se basan en patrones frágiles, ajustados a mano, o en una costosa curación manual, The Aleph arranca las reglas automáticamente para:
- Detectar formatos PTR por red
- Aprende cómo se incrustan las geoindicaciones
- Perfecciona sus pautas con más datos
- Generar reglas reutilizables que otros puedan validar o ampliar
Mil millones de PTRs después…
Ejecutamos The Aleph en una instantánea de febrero de 2024 del corpus de PTR de OpenIntel, con 2.646 sistemas autónomos (AS) que cubrían ~90% de todos los registros PTR y ~84% de la población de Internet. La ejecución completa duró dos días y costó ~500 $ utilizando GPT-4 Turbo (a través de cuentas personales con tarifa limitada).
Los resultados:
- 1.160 millones de registros PTR analizados
- 224 millones de registros asignados a ciudades (~19% de cobertura)
- 4.910 expresiones regulares generadas para 1.551 redes (58%)
- 16.108 geo-indicios únicos asignados a 6.025 ciudades de 206 países
Estas correspondencias revelan una notable diversidad en los estilos de codificación de los operadores. Aunque los códigos de aeropuerto como
Ésta es precisamente la razón por la que un enfoque aprendido, por proveedor, supera a la heurística de talla única.
¿Cuál es su grado de precisión?
Hemos validado el Aleph mediante dos métodos independientes:
- La verdad sobre el terreno de los operadores en las redes de acceso, tránsito y nube.
- Sondeo de latencia basado en RTT para garantizar que las ubicaciones inferidas se ajustan a las distancias de red previstas.
Ambas comprobaciones confirmaron la gran precisión del sistema, especialmente cuando los patrones se aprenden por proveedor y se validan de forma cruzada.
Por qué es importante
Una mejor geolocalización de la infraestructura de Internet permite:
- Investigación y medición: Mapas de cortes, análisis de rutas y métricas de rendimiento más precisos.
- Operaciones: Detección de incoherencias de denominación, etiquetado incorrecto y deriva.
- Política pública: Equidad de las infraestructuras, resiliencia y análisis de la concentración, temas centrales para organizaciones como Internet Society Pulse.
Trabajamos para:
- Libera regexes y mapeos más abiertos y específicos del proveedor
- Ampliar la cobertura a las AS de cola larga
- Invita a los operadores a publicar o compartir sus convenciones de nomenclatura o muestras de PTR
Puedes enviar muestras o probar la API de The Aleph en elaleph.ai.
Para saber más, lee nuestro artículo‘El Aleph: Decoding Geographic Information from DNS PTR Records Using Large Language Models‘ (ACM CoNEXT 2025).
Kedar Thiagarajan es doctorando en la Universidad Northwestern.
Colaboradores: Esteban Carisimo y Fabián E. Bustamante, Universidad Northwestern.
Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.


