|||||

Rendre les données relatives à la censure plus conviviales

Photo of Ram Sundara Raman
Catégories:

La censure sur l'internet représente un danger de plus en plus important pour le libre accès à l'internet, les gouvernements, les fournisseurs d'accès à l'internet et d'autres acteurs surveillant et manipulant le trafic des utilisateurs. La censure sur l'internet devenant de plus en plus répandue, le besoin de données de mesure de réseau de haute qualité et faciles à interpréter se fait de plus en plus sentir. Ces données peuvent aider les journalistes, les décideurs politiques, les chercheurs et les groupes de défense à caractériser les mécanismes de censure et à faire en sorte que les censeurs rendent des comptes.

Au cours de la dernière décennie, la communauté de mesure de la censure a relevé ce défi en créant des observatoires longitudinaux et mondiaux de la censure sur l'internet, tels que l'OONI et Censored Planet, qui produisent des données de mesure de haute qualité avec une excellente couverture dans le temps et dans l'espace.

Problème résolu ? Pas complètement.

La collecte de données de mesure n'est qu'une partie du processus de caractérisation de la censure

L'analyse des données de mesure à grande échelle présente de nombreux défis en ce qui concerne la suppression des faux positifs, l'ajout d'informations externes et l'exploration des données agrégées, en raison de l'opacité, de l'évasion et de la diversité de l'écosystème de la censure. 

Les pratiques d'analyse ad hoc adoptées jusqu'à présent ne sont pas adaptées à de grandes quantités de données de mesure et peuvent conduire à des conclusions erronées, ce qui peut avoir des implications considérables dans un domaine politiquement sensible. Sur la base de notre expérience de gestion d'un observatoire de la censure à grande échelle à l'université du Michigan, nous identifions les principaux défis qui empêchent les chercheurs, y compris les experts, de caractériser avec précision les phénomènes de censure. 

Prise en compte du comportement et des limites de la méthodologie de mesure

Il est important d'examiner la relation entre les mesures effectuées sur différents protocoles Internet et la manière dont elles s'influencent mutuellement. Par exemple, la figure 1 montre deux mesures OONI effectuées à peu près au même moment au Myanmar - l'unemontre l'altération du DNS pour www.facebook.com, et l'autre montre le blocage du TCP/IP. Les processus d'analyse qui ne prennent en compte que le résultat des mesures peuvent conclure que le type de blocage change entre les différentes mesures. Cependant, une inspection plus approfondie des données montre que la mesure du blocage TCP/IP utilise un résolveur DNS public (appartenant à Google) et contourne donc la falsification DNS. Il est donc important de tenir compte de la manière dont les mesures sont effectuées dans le processus de caractérisation de la censure.

Obtenir des métadonnées précises pour caractériser les mesures

La plupart des études précédentes s'appuient sur les données de géolocalisation des pays pour résumer les pratiques de censure par pays, mais cela peut être erroné pour deux raisons :

  1. Les bases de données de géolocalisation sont connues pour leurs imprécisions
  2. La censure est souvent mise en œuvre au niveau du fournisseur d'accès ou de l'organisation, ce qui nécessite des métadonnées supplémentaires. 

Un comportement inattendu du réseau qui pourrait être confondu avec la censure

L'un des principaux défis consiste à prendre en compte les configurations CDN qui peuvent avoir un comportement sur le réseau et des effets de localisation difficiles à quantifier. Par exemple, Cloudflare et Godaddy peuvent bloquer les mesures Internet en raison de problèmes de DDoS ou d'une mauvaise réputation IP et injecter une page "Accès refusé" (figure 2), qui peut être facilement interprétée à tort comme de la censure.

Capture d'écran montrant les détails du pare-feu du site web de GoDaddy
Figure 2 - Serveur GoDaddy bloquant les mesures Internet effectuées par Censored Planet.

D'autres sources de comportement inattendu du réseau peuvent survenir en raison d'événements tels que le géoblocage et les fermetures d'Internet, qui peuvent tous avoir une incidence sur les observations de la censure.

Pipeline d'analyse des données sur la censure

En collaboration avec Google Jigsaw, nous avons construit un pipeline d'analyse de données de censure à code source ouvert, adapté à Censored Planet, qui résout un grand nombre des problèmes que nous avons identifiés de manière systématique. Le pipeline analyse les données de mesure et ajoute des métadonnées provenant de diverses sources. Il compare ensuite les réponses des mesures aux empreintes digitales connues qui agissent comme des signaux de censure. Enfin, les erreurs commises lors des mesures du réseau sont mises en correspondance avec un résultat lisible par l'homme afin de faciliter l'exploration des données, que nous rendons publiques via le tableau de bord de Planète Censurée.

Infographie présentant la conception et le flux de travail du pipeline d'analyse des données de Censored Planet.
Figure 3 - Conception et flux de travail du pipeline d'analyse des données Censored Planet.

La conception du pipeline d'analyse des données présente trois caractéristiques essentielles : 

  1. Il sépare complètement le processus de collecte et d'analyse des mesures, ce qui facilite les améliorations itératives du processus d'analyse à l'avenir.
  2. Il est très efficace dans le traitement des données de mesure à grande échelle, puisqu'il a traité les 60 milliards de mesures de Censored Planet en moins de 24 heures.
  3. Il est modulaire, ce qui permet d'ajouter partiellement des fonctions d'analyse et de traiter des ensembles de données plus petits. 

Les données traitées par le pipeline Censored Planet permettent aux utilisateurs d'identifier et d'explorer facilement les événements et phénomènes de censure. Par exemple, la figure 4 montre le blocage du site web Psiphon en Biélorussie autour des élections du 9 août 2020. Comme le montre la figure, le site Psiphon n'a pas été bloqué avant les élections, mais a été confronté à différents types de blocage après cette période.

Graphique à barres montrant le blocage du trafic vers le site web de Psiphon.
Figure 4 - Blocage SNI de https://psiphon.ca vers août 2020 au Belarus.

Nous espérons que notre analyse détaillée des défis incitera les chercheurs à suivre les meilleures pratiques et à utiliser notre pipeline d'analyse de données pour fournir une caractérisation plus précise et plus efficace de la censure omniprésente sur Internet.

En savoir plus sur notre :

Collaborateurs : Roya Ensafi (Université du Michigan), Armin Huremagic (Censored Planet), Sarah Laplante et Vinicius Fortuna (Jigsaw).


Ram Sundara Raman est candidat au doctorat à l'université du Michigan et ses recherches portent sur la mesure des interférences et de la censure des réseaux à grande échelle. Les opinions exprimées par les auteurs de ce blog sont les leurs et ne reflètent pas nécessairement celles de l'Internet Society.