Facilitar el uso de los datos de censura

Picture of Ram Sundara Raman
Guest Author | Ph.D. Candidate, University of Michigan
Categorias:
Twitter logo
LinkedIn logo
Facebook logo
May 4, 2023

La censura en Internet plantea peligros cada vez más importantes para el libre acceso a la Red, ya que gobiernos, proveedores de servicios de Internet y otros agentes vigilan y manipulan el tráfico de los usuarios. A medida que la censura en Internet se generaliza, aumenta la necesidad de datos de medición de redes de alta calidad y fáciles de interpretar que puedan ayudar a periodistas, responsables políticos, investigadores y grupos de defensa a caracterizar los mecanismos de censura y garantizar la responsabilidad de los censores.

Durante la última década, la comunidad de medición de la censura ha estado a la altura de este desafío para construir observatorios longitudinales y globales de la censura en Internet, como OONI y Censored Planet, que producen datos de medición de alta calidad con una excelente cobertura en el tiempo y el espacio.

¿Problema resuelto? No del todo.

La recopilación de datos de medición es sólo una parte del proceso de caracterización de la censura

El análisis de datos de medición a gran escala presenta numerosos retos a la hora de eliminar falsos positivos, añadir información externa y explorar datos agregados debido al ecosistema de censura intrínsecamente opaco, evasivo y diverso.

Las prácticas de análisis ad hoc adoptadas hasta ahora no se adaptan a grandes cantidades de datos de medición y pueden llevar a conclusiones incorrectas, que pueden tener implicaciones de largo alcance en un área políticamente sensible. Basándonos en nuestra experiencia dirigiendo un observatorio de la censura a gran escala en la Universidad de Michigan, identificamos los principales retos que impiden a los investigadores, incluidos los expertos, caracterizar con precisión los fenómenos de censura.

Contabilización del comportamiento y las limitaciones de la metodología de medición

Es importante tener en cuenta la relación entre las mediciones de los distintos protocolos de Internet y cómo se afectan entre sí. Por ejemplo, la Figura 1 muestra dos mediciones de OONI realizadas más o menos al mismo tiempo en Myanmar: unamuestra la manipulación de DNS para www.facebook.com, y la otra el bloqueo de TCP/IP. Los procesos de análisis que sólo tienen en cuenta el resultado de las mediciones pueden llegar a la conclusión de que el tipo de bloqueo cambia entre las distintas mediciones. Sin embargo, una inspección más detallada de los datos muestra que la medición del bloqueo de TCP/IP utilizó un resolver DNS público (perteneciente a Google) y, por tanto, eludió la manipulación de DNS. Por lo tanto, es importante tener en cuenta cómo se realizan las mediciones en el proceso de caracterización de la censura.

Figura 1 – Dos mediciones de www.facebook.com recogidas por las sondas OONI en Myanmar en febrero de 2021.

Obtención de metadatos precisos para caracterizar las mediciones

La mayoría de los estudios anteriores se basan en datos de geolocalización por países para resumir las prácticas de censura por países, pero esto puede ser erróneo por dos razones:

  1. Se sabe que las bases de datos de geolocalización tienen imprecisiones
  2. La censura suele aplicarse a nivel de ISP u organización, lo que requiere metadatos adicionales.

Comportamiento inesperado en la red que podría confundirse con censura

Un reto importante es tener en cuenta las configuraciones de CDN que pueden causar un comportamiento de red y efectos de localización difíciles de cuantificar. Por ejemplo, Cloudflare y Godaddy pueden bloquear medidas de Internet por problemas de DDoS o baja reputación de IP e inyectar una página de “Acceso denegado” (Figura 2), que puede malinterpretarse fácilmente como censura.

Captura de pantalla que muestra los detalles del cortafuegos del sitio web de GoDaddy
Figura 2 – Servidor de GoDaddy bloqueando las mediciones de Internet realizadas por Censored Planet.

Otras fuentes de comportamiento inesperado de la red podrían surgir debido a acontecimientos, como el geobloqueo y los cierres de Internet, todo lo cual podría afectar a las observaciones de la censura.

Canal de análisis de datos sobre censura

En colaboración con Google Jigsaw, hemos creado un canal de análisis de datos de censura de código abierto adaptado a Censored Planet que resuelve muchos de los problemas que identificamos sistemáticamente. El proceso analiza los datos de las mediciones y añade metadatos procedentes de diversas fuentes. A continuación, compara las respuestas de las mediciones con huellas dactilares conocidas que actúan como señales de censura. Por último, los errores durante las mediciones de la red se asignan a un resultado legible para el ser humano para permitir que los datos se exploren fácilmente, lo que hacemos público a través del Censored Planet Dashboard.

Infografía que muestra el diseño y el flujo de trabajo del proceso de análisis de datos de Censored Planet.
Figura 3 – Diseño y flujo de trabajo del proceso de análisis de datos de Censored Planet.

El diseño de la cadena de análisis de datos tiene tres características fundamentales:

  1. Separa completamente el proceso de recogida y análisis de las mediciones, lo que facilita las mejoras iterativas del proceso de análisis en el futuro.
  2. Es muy eficaz en el tratamiento de datos de medición a gran escala, procesando los 60.000 millones de mediciones de Censored Planet en menos de 24 horas.
  3. Es modular, lo que permite añadir parcialmente funciones de análisis y procesar conjuntos de datos más pequeños.

Los datos procesados de la red Censored Planet permiten a los usuarios identificar y explorar fácilmente los sucesos y fenómenos de censura. Por ejemplo, la figura 4 muestra el bloqueo del sitio web de Psiphon en Bielorrusia en torno a las elecciones del 9 de agosto de 2020. Como se desprende de la figura, el sitio web de Psiphon no se bloqueó antes de las elecciones, pero se enfrentó a distintos tipos de bloqueos a lo largo del tiempo después de ese periodo.

Gráfico de barras que muestra el bloqueo del tráfico al sitio web de Psiphon.
Figura 4 – Bloqueo SNI de https://psiphon.ca en torno a agosto de 2020 en Bielorrusia.

Esperamos que nuestro desglose detallado de los retos motive a los investigadores a seguir las mejores prácticas y a utilizar nuestro canal de análisis de datos para ofrecer una caracterización más precisa e impactante de la censura generalizada en Internet.

Más información:

Colaboradores: Roya Ensafi (Universidad de Michigan), Armin Huremagic (Planeta Censurado), Sarah Laplante y Vinicius Fortuna(Jigsaw).


Ram Sundara Raman es doctor Candidato de la Universidad de Michigan cuya investigación se centra en la medición de las interferencias y la censura en las redes a gran escala. Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.


Contenido traducido

El contenido en francés y español disponible en Internet Society Pulse puede haber sido generado usando servicios de traducción automática, por lo que podría no reflejar con total precisión el texto original.

La versión oficial es el texto en inglés.