Photo of a sign post showing distance to different cities

¿Dónde están alojados los sitios web más populares de tu país?

Picture of James Madeley
Guest Author | Loughborough University and Pulse Research Fellow
Categorias:
Twitter logo
LinkedIn logo
Facebook logo
June 21, 2024

Acceder a contenidos de Internet almacenados en servidores situados en tu país es más rápido, más barato y más fiable que obtener contenidos de otro país. Las infraestructuras habilitadoras, como los Puntos de Intercambio de Internet (IXP), los centros de datos y las cachés de contenidos, lo facilitan. Sin embargo, esta infraestructura sólo está ampliamente disponible en algunos países.

La Internet Society lleva muchos años ayudando a establecerlas y defendiéndolas. Recientemente se fijó un ambicioso plan para mantener local al menos la mitad de todo el tráfico de Internet en economías seleccionadas para 2025. Para más información, consulta la Metodología de la Visión 50/50 de la Internet Society.

Para tener éxito en este esfuerzo, debemos comprender qué cantidad de contenido se aloja actualmente a nivel local y hacer un seguimiento de los cambios.

Lee: Medir la localización del tráfico de Internet, primer paso hacia la visión 50/50

Mi trabajo como becario de investigación 2024 Pulse consiste en implantar y evaluar una plataforma para realizar mediciones de localidad. Este post ofrece una visión general del estado actual de mi investigación en el ecuador de la beca.

Comprender las pautas del tráfico de Internet es un reto

Determinar si el tráfico es local empieza por comprender la popularidad del contenido. Generalmente, la mayor parte del tráfico de Internet procede de los sitios web más populares. Existen varios proveedores de listas principales de Internet, como Similarweb, Cloudflare y Tranco. En este estudio, utilizamos el Informe sobre la Experiencia del Usuario de Chrome (CrUX) de Google, que proporciona un desglose mensual de los 1.000 sitios web más visitados (y más, si es necesario) por los usuarios de Chrome, divididos por países. Investigaciones anteriores demuestran que CrUX es más preciso que otras listas de los mejores.

Idealmente, el volumen de tráfico hacia dominios específicos habría sido una métrica más adecuada para medir la localidad del tráfico. Desgraciadamente, acceder a los datos de volumen de tráfico por países es muy difícil, ya que esta información suele estar disponible sólo para los Proveedores de Servicios de Internet (ISP). Por lo tanto, decidimos utilizar la lista de sitios web más populares como aproximación para medir la localización del tráfico.

¿Cómo se aloja el contenido?

Los sitios web tienen tres formas de alojar contenidos: de forma nativa, utilizando Redes de Entrega de Contenidos (CDN), o una mezcla de ambas. Las CDN tienen servidores distribuidos geográficamente para alojar y servir contenidos cerca de los usuarios finales. Al hacerlo, reducen considerablemente la latencia de acceso al contenido. Algunos servicios, como el streaming online o las plataformas de medios sociales, gestionan sus propias cachés a nivel mundial (por ejemplo, Netflix OpenConnect y Facebook Content Distribution Network)

Una vez que tenemos la lista de sitios web por países, determinamos si están alojados de forma nativa o en una plataforma CDN. Para ello, realizamos una serie de búsquedas en la IP del dominio (WHOIS, CNAME y encabezado de respuesta HTTP). Utilizamos una versión modificada de la herramienta FindCDN para realizar nuestras mediciones.

La ventaja de agrupar los sitios web por plataforma de alojamiento (es decir, por CDN) es que sólo tenemos que averiguar si la CDN es local a un país. Es razonable suponer que los dispositivos se enviarán a los mismos puntos finales para todos los sitios web que utilicen una CDN específica, por lo que las pruebas individuales resultan redundantes.

Geolocalizar cachés CDN

Para determinar la localidad de las cachés CDN, analizamos las pistas de localización (geo-pistas) encontradas al recuperar objetos de cada CDN. Para ello, debemos realizar estas mediciones desde el país de interés. Utilizamos proxies residenciales y aprovechamos su vasta red para realizar mediciones localmente.

La mayoría de las plataformas CDN probadas proporcionan “geoindicios” en el encabezado de respuesta HTTP, normalmente como un código IATA de aeropuerto. Así podremos determinar si el punto de presencia coincide con nuestra fuente de pruebas.

Una vez recopilados los datos por país, podemos estimar el número de dominios, de entre los 1.000 principales, que están alojados localmente.

Filtrar los resultados proporciona algunas perspectivas interesantes sobre el estado general de la localidad de tráfico. Por ejemplo, podemos categorizar los sitios web y ver si el tipo de sitio influye en la probabilidad de que sea local. También podemos ver qué proveedores tienen más sitios locales.

También hay formas más obvias de examinar los datos, como determinar si el continente o la situación económica de un país afectan a la localidad. Con el tiempo, también podemos comprender cómo afectan las cuestiones geopolíticas a la localidad de tráfico.

Todo esto, ¡y sólo estamos a mitad de camino!

La metodología de búsqueda está casi terminada, y ahora se están recopilando los resultados.

Recopilaremos semanalmente estos datos de todos los países para poder seguir la evolución de la localización de los contenidos. El seguimiento de estos datos nos ayudará a orientar nuestra labor de defensa. Además, exploraremos el papel de los IXP para acercar los contenidos a los usuarios finales.

Los próximos pasos son producir visualizaciones (ver un ejemplo más abajo) y formalizar nuestro proceso en un artículo completo.

Hasta ahora, este proyecto ha sido muy satisfactorio. Trabajar para conseguir un objetivo importante como la Visión 50/50 puede resultar a veces desalentador, pero los hitos están claros y conocemos los pasos siguientes. Estoy deseando ver lo que hemos conseguido al final de esta beca y a qué puede conducir el trabajo en el futuro.