¿Dónde se alojan los sitios web más populares de su país?
Acceder a los contenidos de Internet almacenados en servidores situados en su país es más rápido, barato y fiable que obtenerlos en otro país. Las infraestructuras habilitadas, como los puntos de intercambio de Internet (IXP), los centros de datos y los cachés de contenidos, lo facilitan. Sin embargo, esta infraestructura sólo está ampliamente disponible en algunos países.
La Internet Society lleva muchos años ayudando a establecerlas y abogando por ellas. Recientemente se ha fijado el ambicioso plan de mantener local al menos la mitad de todo el tráfico de Internet en economías seleccionadas para 2025. Para más información, consulte la Metodología de la Visión 50/50 de la Internet Society.
Para tener éxito en este esfuerzo, debemos comprender qué cantidad de contenido se aloja actualmente a nivel local y realizar un seguimiento de los cambios.
Leer: Medir la localización del tráfico en Internet, primer paso hacia la visión 50/50
Mi trabajo como becaria de investigación Pulse 2024 consiste en implantar y evaluar una plataforma para realizar mediciones de la localidad. Este post ofrece una visión general del estado actual de mi investigación en el ecuador de la beca.
Comprender los patrones de tráfico de Internet es un reto
Determinar si el tráfico es local empieza primero por comprender la popularidad de los contenidos. Por lo general, la mayor parte del tráfico de Internet procede de los sitios web más populares. Existen varios proveedores de listas de los más populares de Internet, como Similarweb, Cloudflare y Tranco. En este estudio, hemos utilizado el informe de Google Chrome User Experience (CrUX), que ofrece un desglose mensual de los 1.000 sitios web más visitados (y más, si es necesario) por los usuarios de Chrome, divididos por países. Investigaciones anteriores demuestran que CrUX es más preciso que otras listas de los más visitados.
Idealmente, el volumen de tráfico hacia dominios específicos habría sido una métrica más apropiada para medir la localización del tráfico. Por desgracia, acceder a los datos de volumen de tráfico por países es muy difícil, ya que esta información sólo suele estar disponible para los proveedores de servicios de Internet (ISP). Por lo tanto, decidimos utilizar la lista de los sitios web más populares como aproximación para medir la localidad del tráfico.
¿Cómo se aloja el contenido?
Los sitios web tienen tres formas de alojar contenidos: de forma nativa, utilizando redes de distribución de contenidos (CDN) o una mezcla de ambas. Las CDN disponen de servidores distribuidos geográficamente para alojar y servir los contenidos cerca de los usuarios finales. Al hacerlo, reducen considerablemente la latencia del acceso al contenido. Algunos servicios, como el streaming en línea o las plataformas de medios sociales, gestionan sus propias cachés a nivel mundial (por ejemplo, Netflix OpenConnect y Facebook Content Distribution Network).
Una vez que tenemos la lista de sitios web por países, determinamos si están alojados de forma nativa o en una plataforma CDN. Para ello, realizamos una serie de búsquedas en la IP del dominio (WHOIS, CNAME y encabezado de respuesta HTTP). Utilizamos una versión modificada de la herramienta FindCDN para realizar nuestras mediciones.
La ventaja de agrupar los sitios web por plataforma de alojamiento (es decir, por CDN) es que sólo necesitamos averiguar si la CDN es local en un país. Es razonable suponer que los dispositivos se enviarán a los mismos puntos finales para todos los sitios web que utilicen una CDN específica, por lo que las pruebas individuales resultan redundantes.
Geolocalización de cachés CDN
Para determinar la localidad de las cachés CDN, analizamos las pistas de localización (geo-pistas) encontradas al recuperar objetos de cada CDN. Para ello, debemos ejecutar estas mediciones desde el país de interés. Utilizamos proxies residenciales y aprovechamos su vasta red para ejecutar las mediciones localmente.
La mayoría de las plataformas CDN probadas proporcionan 'geohints' en el encabezado de respuesta HTTP, normalmente como un código IATA de aeropuerto. Así podemos determinar si el punto de presencia coincide con nuestra fuente de pruebas.
Una vez recopilados los datos por país, podemos estimar el número de dominios, de entre los 1.000 principales, que están alojados localmente.
El filtrado de los resultados ofrece algunas perspectivas interesantes sobre el estado general de la localización del tráfico. Por ejemplo, podemos categorizar los sitios web y ver si el tipo de sitio influye en la probabilidad de que sea local. También podemos ver qué proveedores tienen más sitios locales.
También hay formas más obvias de examinar los datos, como determinar si el continente o la situación económica de un país afectan a la localidad. Con el tiempo, también podemos comprender cómo afectan las cuestiones geopolíticas a la localidad de tráfico.
Todo esto, ¡y sólo estamos a mitad de camino!
La metodología de búsqueda está casi terminada y ahora se están recopilando los resultados.
Recopilaremos semanalmente estos datos de todos los países para poder seguir la evolución de la localidad de los contenidos. El seguimiento de estos datos ayudará a orientar nuestra labor de promoción. Además, exploraremos el papel de los IXP a la hora de acercar los contenidos a los usuarios finales.
Los próximos pasos son elaborar visualizaciones (véase un ejemplo más abajo) y formalizar nuestro proceso en un artículo completo.
Hasta ahora, este proyecto ha sido muy satisfactorio. Trabajar en pos de un objetivo tan importante como la Visión 50/50 puede resultar a veces desalentador, pero los hitos están claros y conocemos los siguientes pasos. Estoy deseando ver lo que hemos conseguido al final de esta beca y a qué puede conducir el trabajo en el futuro.
James Madeley es investigador doctoral en la Universidad de Loughborough e investigador de 2024 Pulse.
Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.
