|||||

Cómo hacer que los datos de la censura sean más fáciles de utilizar

Photo of Ram Sundara Raman
Categorías:

La censura en Internet plantea peligros cada vez más importantes para el acceso abierto a la red, ya que los gobiernos, los proveedores de servicios de Internet y otros actores vigilan y manipulan el tráfico de los usuarios. A medida que la censura en Internet se hace más omnipresente, aumenta la necesidad de disponer de datos de medición de redes de alta calidad y fáciles de interpretar que puedan ayudar a periodistas, responsables políticos, investigadores y grupos de defensa a caracterizar los mecanismos de censura y garantizar la responsabilidad de los censores.

Durante la última década, la comunidad de medición de la censura ha estado a la altura de este reto para construir observatorios longitudinales y globales de la censura en Internet, como OONI y Censored Planet, que producen datos de medición de alta calidad con una cobertura excelente en el tiempo y el espacio.

¿Problema resuelto? No del todo.

La recopilación de datos de medición es sólo una parte del proceso de caracterización de la censura

El análisis de datos de medición a gran escala presenta numerosos retos a la hora de eliminar falsos positivos, añadir información externa y explorar datos agregados debido al ecosistema de censura intrínsecamente opaco, evasivo y diverso. 

Las prácticas de análisis ad hoc adoptadas hasta ahora no se adaptan a grandes cantidades de datos de medición y pueden llevar a conclusiones incorrectas, que pueden tener implicaciones de gran alcance en un área políticamente sensible. Basándonos en nuestra experiencia dirigiendo un observatorio de la censura a gran escala en la Universidad de Michigan, identificamos los principales retos que impiden a los investigadores, incluidos los expertos, caracterizar con precisión los fenómenos de la censura. 

Contabilización del comportamiento y las limitaciones de la metodología de medición

Es importante tener en cuenta la relación entre las mediciones de distintos protocolos de Internet y cómo se afectan entre sí. Por ejemplo, la figura 1 muestra dos mediciones del OONI realizadas más o menos al mismo tiempo en Myanmar: unamuestra la manipulación del DNS para www.facebook.com y la otra el bloqueo de TCP/IP. Los procesos de análisis que sólo tienen en cuenta el resultado de las mediciones pueden llegar a la conclusión de que el tipo de bloqueo cambia entre las distintas mediciones. Sin embargo, una inspección más detallada de los datos muestra que la medición del bloqueo TCP/IP utilizó un resolver DNS público (perteneciente a Google) y, por tanto, eludió la manipulación DNS. Por lo tanto, es importante tener en cuenta cómo se realizan las mediciones en el proceso de caracterización de la censura.

Obtención de metadatos precisos para caracterizar las mediciones

La mayoría de los estudios anteriores se basan en los datos de geolocalización de los países para resumir las prácticas de censura por países, pero esto puede ser erróneo por dos razones:

  1. Se sabe que las bases de datos de geolocalización tienen imprecisiones
  2. La censura se aplica con frecuencia a nivel de ISP o de organización, lo que requiere metadatos adicionales. 

Un comportamiento inesperado en la red que podría confundirse con la censura

Un reto importante es tener en cuenta las configuraciones de las CDN que pueden causar un comportamiento de red y efectos de localización difíciles de cuantificar. Por ejemplo, Cloudflare y Godaddy pueden bloquear las mediciones de Internet por motivos de DDoS o de baja reputación de la IP e inyectar una página de "Acceso denegado" (Figura 2), que puede malinterpretarse fácilmente como censura.

Captura de pantalla que muestra los detalles del cortafuegos del sitio web de GoDaddy
Figura 2 - Servidor de GoDaddy bloqueando las mediciones de Internet realizadas por Censored Planet.

Otras fuentes de comportamiento inesperado de la red podrían surgir debido a acontecimientos, como el geobloqueo y los cierres de Internet, todos los cuales podrían afectar a las observaciones de la censura.

Canal de análisis de datos sobre censura

En colaboración con Google Jigsaw, hemos construido un pipeline de análisis de datos de censura de código abierto adaptado a Censored Planet que resuelve muchos de los retos que identificamos sistemáticamente. El proceso analiza los datos de las mediciones y añade metadatos procedentes de diversas fuentes. A continuación, compara las respuestas de las mediciones con huellas dactilares conocidas que actúan como señales de censura. Por último, los errores durante las mediciones de la red se mapean a un resultado legible por humanos para permitir que los datos se exploren fácilmente, lo que hacemos público a través del Panel de Planeta Censurado.

Infografía que muestra el diseño y el flujo de trabajo de la cadena de análisis de datos del Planeta Censurado.
Figura 3 - El diseño y el flujo de trabajo de la cadena de análisis de datos del Planeta Censurado.

El diseño de la tubería de análisis de datos tiene tres características clave: 

  1. Separa completamente el proceso de recogida y análisis de las mediciones, lo que facilita las mejoras iterativas del proceso de análisis en el futuro.
  2. Es muy eficaz en el tratamiento de datos de medición a gran escala, procesando los 60.000 millones de mediciones de Censored Planet en menos de 24 horas.
  3. Es modular, lo que permite añadir parcialmente funciones de análisis y procesar conjuntos de datos más pequeños. 

Los datos procesados del pipeline Planeta Censurado permiten a los usuarios identificar y explorar fácilmente los acontecimientos y fenómenos de censura. Por ejemplo, la figura 4 muestra el bloqueo del sitio web Psiphon en Bielorrusia en torno a las elecciones del 9 de agosto de 2020. Como se desprende de la figura, el sitio web de Psiphon no fue bloqueado antes de las elecciones, pero se enfrentó a diferentes tipos de bloqueo a lo largo del tiempo después de ese periodo.

Gráfico de barras que muestra el bloqueo del tráfico al sitio web de Psiphon.
Figura 4 - Bloqueo SNI de https://psiphon.ca en torno a agosto de 2020 en Bielorrusia.

Esperamos que nuestro detallado desglose de los retos motive a los investigadores a seguir las mejores prácticas y a utilizar nuestro canal de análisis de datos para ofrecer una caracterización más precisa e impactante de la omnipresente censura en Internet.

Obtenga más información sobre nuestro:

Colaboradores: Roya Ensafi (Universidad de Michigan), Armin Huremagic (Planeta Censurado), Sarah Laplante y Vinicius Fortuna(Jigsaw).


Ram Sundara Raman es doctorando en la Universidad de Michigan y su investigación se centra en la medición de las interferencias y la censura en las redes a gran escala. Las opiniones expresadas por los autores de este blog son suyas y no reflejan necesariamente los puntos de vista de la Internet Society.