terça-feira, 21 de junho de 2016

Estudo de Princeton expõe vigilância descontrolada dos trackers na Web

Os pesquisadores Steven Englehardt e Arvind Narayanan, da Universidade de Princeton, publicaram no dia 18 de maio o “estudo mais amplo e detalhado de monitoramento online até a presente data” (paper).

Usando a ferramenta livre / de código aberto OpenWPM, (um “framework para medições de privacidade na web), eles conduziram uma série de experimentos nos primeiros 1 milhão de sites do ranking de popularidade da Alexa, e encontraram alguns resultados já esperados — concentração de um pequeno número de gigantes mas uma “cauda longa” de milhares de trackers, prevalência desses mecanismos em sites de notícia, eficácia de extensões e plugins de bloqueio…

Mas Englehardt e Narayanan também fizeram algumas descobertas surpreendentes: a prática comum de “sincronização de cookies” entre diferentes trackers e a adoção de técnicas novas de fingerprinting para identificar dispositivos.

A capacidade de monitorar detalhadamente as ações das pessoas na Web, a prática difundida de compartilhar e vender dados umas para as outras e a característica desse mercado de possuir um pequeno número de empresas que estão presentes na maioria dos sites produzem um grave dano à privacidade de quem acessa a Web, afetando também outros direitos fundamentais como a autodeterminação e a inviolabilidade da intimidade.

Está tramitando na Câmara dos Deputados um Projeto de Lei que busca trazer garantias à população brasileira e que já têm paralelos em mais de cem países ao redor do mundo: uma lei que proteja os dados pessoais. Se aprovada da forma como foi proposto pelo Ministério da Justiça, ela estabelecerá claros limites em quais dados poderão ser guardados e processados por essas empresas com o objetivo explícito de proteger direitos fundamentais.

Neste artigo, vamos ver as principais descobertas do estudo de Englehardt e Narayanane entender como o Projeto de Lei nº 5.276/2016, resultado de duas consultas públicas e encaminhado à Câmara recentemente pelo governo Dilma Rousseff antes da presidenta ser afastada, pode nos dar maior controle sobre a coleta e o tratamento dos dados pessoais por parte dos trackers.

Third parties e trackers: data is money, my friend

Antes de tudo, uma definição: o estudo gira em torno das third parties. Quando visitamos um determinado site, a first party (“primeira pessoa”), ele pode carregar recursos como scripts e imagens de outros domínios, as third parties (“terceiras pessoas”).

milhaodesites-trackers

Muitos desses domínios servem trackers, enquanto outros são usados para fornecer imagens estáticas (como o gstatic.com da Google e o fbcdn.net do Facebook). Estes conteúdos não são relevantes para os propósitos do estudo, que analisa aqueles que hospedam scripts que rodam silenciosamente, detectam e comunicam à “base” informações sobre a visita. Para separar o joio do trigo, o estudo usou listas usadas por plugins de privacidade, curadas e alimentadas com novos endereços de trackers conforme eles são descobertos.
Para aprender mais sobre esse monitoramento funciona e como se defender dele, veja nosso artigo Trackers: os grandes stalkers da Web.

Descobertas do estudo

Embora tenham sido registradas 81.000 third parties, um pequeno grupo delas está presente em muitos sites, enquanto a maioria foi detectada em pouquíssimos sites (o “efeito cauda longa“). Isso confirma as impressões de observadores da indústria de que há uma grande concentração de grandes empresas do ramo que domina a maior parte do mercado — somente 123 dessas 81 mil estão presentes em mais de 1% dos sites, e todas as cinco maiores percentem à Google. “De fato, a Google, o Facebook e o Twitter são as únicas entidades com third parties presentes em mais de 10% dos sites”, dizem os autores.

Além disso, o estudo detectou que a maioria dos trackers faz sincronização de cookies (cookie syncing), comunicando a outros trackers os ID’s usados internamente para identificar visitantes. Esta descoberta sugere que as empresas de tracking trocam grandes volumes de seus dados entre si por fora da interação usuário(a)↔website .

Outra descoberta pouco óbvia é que a indústria de monitoramento online pode ser uma barreira para a ampla adoção de HTTPS. Como os navegadores alertam sobre “conteúdo misto” quando um site em HTTPS carrega recursos via HTTP desprotegido, e muitos trackers não oferecem por HTTPS (ou não por padrão), há um desincentivo para sites adotarem essa vital tecnologia para que suas visitas não sejam recebidas com um “cadeado quebrado”. Além dos riscos de interceptação, um outro agravante é que tais scripts de monitoramento e seus cookies, quando trafegam via HTTP, podem ser usados por agências de inteligência e crackers para te identificar e até invadir.

Sites de notícias e outros conteúdos editoriais são os mais monitorados. Já sites de universidades, organizações governamentais e sem fins lucrativos são os que menos instalam trackers. Uma hipótese levantada pelos autores é de que os últimos apresentam menos monitoramento (e anúncios) pois têm financiamento externo, enquanto os primeiros são obrigados a monetizar suas visitas (e, crescentemente, limitar visitantes que usam ad blockers).

Por que querem meus dados?



O caminho dos anúncios desde os marketeiros até você. Cada uma dessas empresas ajuda a definir quais você vai ver ao acessar uma página web.
“Informações pessoais são o novo petróleo, o combustível vital da nossa economia digital”, como disse Andrew Keen para a CNN. A vasta gama de tipos de dados que os aplicativos e dispositivos emitem constantemente — localização, relações sociais, hábitos de consumo e comportamento — são o que mantém o capital girando para uma grande e crescente parcela de empresas de software.

O modelo de negócios adotado nos primórdios da rede, com serviços pagos diretamente pelo cliente ou financiados por universidades e empresas, chegou ao público geral como o que os especialistas em privacidade e segurança da informação chamam de modelo de negócios da vigilância: a empresa oferece serviços “gratuitamente”, e paga suas contas e funcionários(as) vendendo as informações pessoais que conseguem coletar para quem se interessa.

Esses dados possuem alto valor para uma série de outras empresas que se beneficiam em conhecer detalhes sobre a vida das pessoas: serviços de crédito que querem avaliar seu risco de dar um calote, seguros de saúde que podem usá-los para determinar o valor do plano, lojas e empreendimentos que querem entender o comportamento do mercado e anunciar diretamente para um público-alvo específico…

Para intermediar a coleta de dados nos sites e aplicativos e seu uso final pelo mercado, surgiu a indústria das data brokers (“corretores de dados”). Gigantes como a Acxiom e a Experian possuem sedes ao redor do mundo, onde compram e vendem bancos de dados sobre populações inteiras.
O ramo é tão grande que muitas vezes há mais intermediários na cadeia: centenas de outras empresas pequenas e grandes comercializam entre si bancos de dados para integrar com sua vasta coleção — a Experian, que comprou a Serasa em 2007, possui terabytes de informação sobre o público brasileiro e petabytes a nível global.

Algumas das data brokers que coletam dados na Internet segmentam internautas com base no seu comportamento online, justamente através dos trackers estudados pela dupla de pesquisadores de Princeton. No Brasil, por exemplo, uma empresa chamada Navegg Analytics busca “entender o comportamento do consumidor”, e baseia sua segmentação da população em um estudo de 6 anos conduzido em mais de 100 mil sites. Seus scripts estão presentes na maioria dos portais de notícias e em vários outros sites voltados para o público brasileiro.


Algumas categorias em que a Navegg associa a você a cada visita em um site que use seus third-party scripts. Se você não tem tempo para ler nosso artigo sobre profiling, TEM QUE ao menos ler o guia ilustrado.

E agora, quem poderá nos defender?

tumblr_o85mhnFEZ51vwx6peo1_1280

O mercado de coleta e tratamento de dados em escala massiva, na ausência de leis que o limitem e por ser invisível para quem navega no site (tanto na coleta quanto no uso), se tornou definitivamente um monstro.
Proibi-lo completamente, no entanto, é desproporcional e eliminaria uma opção legítima de usar serviços gratuitos que, além de manterem-se financeiramente com o tratamento de dados, os usem para aprimorar sua interface e seu serviço — por exemplo coletando estatísticas de uso de seus softwares para entender quais entraves as pessoas enfrentam.

O que precisamos para tornar essa indústria mais justa e saudável são ferramentas para que as pessoas possam exercer controle sobre que dados vão compartilhar e entendendo o que está em jogo após suas escolhas.

Proteções legais aos nossos dados com o Projeto de Lei 5276/2016, além de eficazes no cenário atual de trackers, protegem todos os dados, quer sejam visitas em sites, quer sejam suas compras no supermercado. Ele também traz limites claros não só para o momento da coleta como o de tratamento (pense em algoritmos) e o repasse para o poder público ou empresas dentro e fora do país. O PL também obriga as empresas a seguir padrões e boas práticas de segurança para o armazenamento, a transmissão e a anonimização (que serão atualizados conforme as tecnologias de proteção e de quebra evoluem).

O PL 5276/2016 protege seus dados

tumblr_o8d35aEnVm1vwx6peo1_500
Segundo Marília Monteiro, pesquisadora do Privacidade Brasil e mestranda em Políticas Públicas na Hertie School of Governance, “há pouca, senão nenhuma regra que regule a atividade dos chamados data brokers no Brasil. Para aquelas que lidam com informações de crédito, algumas balizas estão presentes nas regras consumeristas, mas isso está limitando a alguns agentes da cadeia de informações de crédito e não de forma sistemática e especializada”.

Nós da Coding Rights, junto com mais 40 entidades da academia e da sociedade civil organizada manifestamos interesse na chegada do Projeto de Lei de Proteção de Dados Pessoais à Câmara dos Deputados. O PL nº 5.276/2016, como escrevemos em uma carta aberta, “foi construído de forma colaborativa com amplo engajamento social por meio de duas consultas públicas realizadas no fim do ano de 2010 e começo do ano de 2015, a partir da iniciativa do Ministério de Justiça em colocar o texto do então Anteprojeto de Lei de Proteção de Dados Pessoais sob escrutínio público nas plataformas online Cultura Digital e Pensando o Direito“.

O PL de Proteção de Dados vem preencher uma lacuna na nossa legislação: proteções semelhantes já existem na maioria das democracias mais fortes do mundo, como a Diretiva de Proteção de Dados que orienta as leis de cada país da União Europeia, ou as regulamentações específicas por setor que os EUA adotam em vez de uma lei geral. Marília Monteiro, que era coordenadora de Consumo e Sociedade da Informação da Senacon/MJ e participou ativamente da elaboração do debate público, afirma que “o PL 5.276/16 traz padrões mínimos internacionalmente reconhecidos que criam o dever de transparência para as data brokers. Os princípios, direitos e garantias presentes no projeto permitiriam, por exemplo, que os usuários acessem as informações agregadas pelas data brokers, optem pela não coleta, compartilhamento e divulgação de seus dados pessoais e que corrijam as informações a seu respeito”.
Como vimos, há uma grande concentração de atores no mercado de tracking, o que torna uma lei que estabeleça normas para sua atuação mais eficiente. Segundo os autores, “para as pouco mais de 100 third parties que são prevalentes em pelo menos 1% dos sites, imaginamos que elas são entidades grandes o bastante para terem seu comportamento regulamentado por pressão da opinião pública e a possibilidade de ações legais”.
Ao longo dos últimos meses, viemos preparando uma série de materiais para auxiliar a participação no processo de consulta pública. No guia Dados Pessoais: como contribuir para o debate público, feito pela Oficina Antivigilância e pelo CSLab, são explicados os principais conceitos e questões de cada um dos “eixos” do debate conforme organizado pelo Ministério da Justiça. Fizemos um boletim especial com artigos sobre as data brokers e os riscos e garantias da anonimização na proteção de dados pessoais, além de uma visualização interativa dos comentários feitos na plataforma do MJ para enxergar as principais disputas em torno do texto da lei.

Exercendo (algum) controle sobre sua navegação

Enquanto não temos uma lei que nos proteja, podemos exercer um maior controle sobre os dados que entregamos para estas empresas através das já conhecidas ferramentas de bloqueio de anúncios. O estudo dos pesquisadores de Princeton realizou testes comparados com um navegador com Ghostery, e verificou que ele é bastante eficiente, bloqueando grande parte dos trackers sem comprometer o funcionamento normal do site (deixando passar domínios de CDN’s e e widgets, por exemplo).
As extensões Privacy Badger (Chrome, Firefox)  e uBlock Origin (Chrome, Firefox, Opera) possuem um funcionamento similar ao Ghostery, com a vantagem de serem software livre. A combinação das duas é nossa recomendação para proteger sua navegação dos olhos da indústria de forma transparente e automática. Estas ferramentas atuam através de “listas negras” e sistemas sofisticados de reconhecimento de tracking para impedir o navegador de carregar scripts enxeridos.




Comparação feita para nosso artigo sobre trackers mostra scripts carregados sem (1ª) e com (2ª) as extensões Privacy Badger e uBlock Origin. Muitos deles atuam em vários sites ao mesmo tempo.

Fingerprinting, ou seguindo você na Internet sem login

Apesar de haver ferramentas que bloqueiam os trackers tradicionais, o estudo detectou uma série de métodos pouco conhecidos ou até inéditos de monitorar pessoas online, que passam batido por essas extensões.
milhaodesites-fingerprinting
As técnicas de fingerprinting permitem que o tracker faça uma “impressão digital” de todos os dados que consegue juntar sobre o navegador; assim, ele sabe que quem está entrando no site X é a mesma pessoa que entrou em um site Y. Seguindo sua trajetória online é possível aprender muito sobre seu comportamento mesmo sem saber sua identidade pessoal — e basta fazer login em um site onde você tenha se cadastrado e puf, já é possível te ligar ao seu histórico de navegação.

Alguns métodos de fingerprinting já são conhecidos: a lista de fontes e plugins que o navegador suporta, as informações sobre a versão do navegador (user agent string) e o tamanho de sua janela… a ferramenta Panopticlick mantida pela EFF testa o quão único é seu navegador frente aos das outras milhares de visitas que o site já ganhou.

Uma gama de outras formas de fingerprinting são menos conhecidas e estudadas. O canvas fingerprinting, por exemplo, se aproveita de particularidades na forma como o javascript desenha formas no <canvas> em diferentes dispositivos e navegadores. A pesquisa de Englehardt e Narayanan é a primeira a detectar uma série de métodos sofisticados de identificação que se aproveitam de interações com o sistema que o javascript oferece sem pedir permissão:
  • Font canvas fingerprinting é enumerar as fontes presentes no sistema através da interface “canvas” de desenho.
  • O WebRTC-based fingerprinting coloca na mistura seu endereço de IP na rede local.
  • O AudioContext fingerprinting detecta sutilezas na forma como a Audio API processa sinais de áudio em cada máquina e navegador.
  • Foram detectados até scripts que gravam o nível de bateria e quanto falta para (des)carregar completamente.
A princípio, estas informações parecem banais e inúteis. No entanto, é consenso na comunidade técnica e na ciência da computação que até mesmo poucos dados que se refiram aos hábitos ou comportamentos de uma pessoa, quando combinados, podem identificá-las com alta precisão, ou destacá-las na multidão com base em características coletivas como etnia, situação econômica, condição de saúde e posições políticas.

Como disse Arvind Narayanan em seu site pessoal dedicado à (des)anonimização de dados, “há somente 6,6 bilhões de pessoas no mundo, então são necessários somente 33 bits de informação sobre uma pessoa para determinar quem ela é”. O cenário só piora na Web, já que o número de pessoas com acesso à rede é muito menor que a população mundial, e 15 minutos de navegação podem facilmente revelar todos os bits necessários para revelar nossa identidade.

Entramos em contato com Cooper Quintin, desenvolvedor da extensão Privacy Badger, para entender o quanto a extensão já nos protege contra as técnicas abordadas no estudo. Em vez de usar uma lista de trackers conhecidos, o software mantido pela Electronic Frontier Foundation busca em todas as third parties comportamentos associados ao monitoramento, como o armazenamento de cookies e acesso às funcionalidades do javascript que fornecem dados para fingerprinting. Assim, aprimorar a heurística do software para novas ameaças protege automaticamente milhares de usuários(as) da extensão na próxima atualização.

Para Cooper, o relatório da dupla de Princeton é “fascinante”, e ele planeja examiná-lo com mais calma para adaptar seu software aos novos métodos descobertos. “Font canvas e AudioContext são definitivamente novos para mim, e não são detectados pelo Privacy Badger. No momento atual detectamos canvas fingerprinting e super cookies de armazenamento local, além dos cookies tradicionais”.


No próximo artigo da Oficina Antivigilância para a campanha #ProtejamMeusDados, veremos como o PL 5.276/2016, através de suas determinações sobre anonimização de dados e dados usados para formação de perfis (profiling) nos protege de práticas abusivas de publicidade e riscos severos de segurança que a reidentificação apresenta para todos(as), dentro e fora da Web (spoiler: será baseado no nosso artigo sobre anonimização).

Os especialistas em proteção de dados pessoais Bruno Bioni e Renato Leite Monteiro fizeram uma instrutiva linha do tempo dos PLs de Proteção de Dados Pessoais para o Data Privacy Brasil. Você pode acompanhar a tramitação do PL no site da Câmara; é possível se cadastrar para receber atualizações por e-mail.
O InternetLab fez uma análise detalhada de todo o debate feito na última consulta pública, sendo um ótimo guia para se aprofundar em questões específicas como consentimento, dados anônimos, transferência internacional, e o tratamento de dados para segurança pública e defesa nacional.

pldadospessoais

Você pode se envolver pelo Twitter , Facebook e nas suas redes de preferência — memes e materiais de divulgação estão sendo organizados no Tumblr PL 5276 protege nossos dados!. Na página especial #ProtejamMeusDados que preparamos aqui no site, manteremos uma visão geral da campanha e do processo no Congresso.

Oficina Antivigilancia

Nenhum comentário:

Postar um comentário