Privacidade diferencial: o ruído anonimizador
Escrito por
Lahis Kurtz (Ver todos os posts desta autoria)
2 de março de 2020
Estatísticas sobre populações podem ser revertidas em dados pessoais, e a privacidade diferencial é uma das formas de evitar isso.
Reidentificação e privacidade
Quando olhamos para um banco de dados, ele parece algo impessoal. À primeira vista, ele pareceria só um amontoado de números, que nos diz algo sobre um grupo, sem dizer nada sobre uma pessoa específica daquele grupo. Os indivíduos seriam anônimos.
Mas afirmar isso seria o mesmo que afirmar que um livro é só um amontoado de palavras. Tal qual nos problemas de lógica, em que nos é dada uma série de informações aparentemente desconexas que, juntas, revelam situações e características, nos bancos de dados é possível combinar informações para descobrir algo sobre indivíduos singulares. Esse é o conceito de reidentificação.
Por exemplo, digamos que conhecemos uma Maria, que trabalha em determinada repartição pública. Agora, suponhamos que no site dessa repartição há o total de homens e mulheres que trabalham nessa repartição, e que só há 3 mulheres. Em outro banco de dados, verificamos que 3 mulheres dessa repartição tiraram licença-maternidade naquele ano. Aparentemente, nenhum desses bancos de dados é sobre a Maria. Mas, olhando para esses dois bancos de dados supostamente anônimos e que não contêm informações específicas sobre alguém, acabamos descobrindo algo sobre ela. Podemos afirmar que Maria tem um ou mais filhos, potencialmente um bebê ou uma criança em casa.
Esse foi um exemplo simples, mas com todos os algoritmos e sofisticados sistemas de análise de correlação disponíveis, os problemas de lógica ficaram muito mais fáceis de resolver.
Formar ou publicar qualquer banco de dados que envolve grupos de pessoas exige cuidados prévios. Pode parecer inofensivo a Maria ser identificada como mãe no contexto de um banco de dados, mas a verdade é que isso pode acarretar em situações indesejadas. Ela pode ser alvo de publicidade direcionada, ou sofrer discriminação ao concorrer para postos de trabalho. Assim como essa, diversas outras condições pessoais, que não seriam de interesse ou acesso público e que deixam vulnerável a pessoa em várias situações, podem vir a ser expostas por meio de reidentificação de dados estatísticos.
Ao mesmo tempo, dados estatísticos são necessários e têm ganhado muito valor em estudos de mercado e em elaboração de políticas públicas. Por isso, foi desenvolvida uma forma de lidar com o problema da reidentificação mantendo a utilidade da estatística: a privacidade diferencial – uma das 10 tecnologias mais promissoras de 2020, segundo lista do MIT.
O ruído anonimizador
Reconhecida por seu potencial anonimizador, a privacidade diferencial é definida formalmente assim:
Na prática, sua aplicação nada mais é do que inserção de informações (fabricadas) em bancos de dados verdadeiros, para dificultar a reidentificação dos indivíduos que participam daquela estatística.
Se pararmos para pensar por um instante, é fácil perceber quais os problemas que podem resultar dessa ideia: ninguém quer ter dados estatísticos que digam, por exemplo, que a maior parte de uma população tem a característica x se, na verdade, a maioria tem a característica y. Uma estatística incorreta é inútil e pode gerar muitos problemas. Por isso, o método também envolve o cuidado de, ao inserir essa nova informação, ela não resultar em uma mudança significativa na estatística provida pelo banco de dados.
Isso é, como se os bancos de dados fossem diversas vozes falando ao mesmo tempo, e a privacidade diferencial acrescentasse ruído, evitando que se saiba o que está sendo dito por quem. Mas o ruído não pode se sobrepor às falas, predominando e evitando a possibilidade de compreendê-las.
Ou seja, ao remover ou acrescentar um dado do banco onde foi aplicada privacidade diferencial, a informação que ele contém não deixa de ser válida. O ruído matemático não pode ser mais importante que os dados aos quais ele se mistura. Também existe preocupação em otimizar o uso desse ruído, maximizando a veracidade do banco de dados sem aumentar o risco de reidentificação. Alguns problemas técnicos envolvendo isso ainda são discutidos, como por exemplo nessa dissertação, que sugere formas de aplicar a técnica a dados correlacionados sem produzir mais ruído que o necessário.
A relevância da anonimização
Cada vez mais bancos de dados sobre populações e grupos estão acessíveis ou potencialmente disponíveis ao público. E estamos participando de mais e mais desses bancos de dados, feitos por diversos atores sociais, como governos e empresas privadas, que coletam informações sobre nós e nosso comportamento.
As estatísticas geradas estão servindo como forma de transparência, fonte de pesquisa e de informação. Censos, pesquisas demográficas e de comportamento podem trazer informação valiosa para entendermos mais sobre nós mesmos enquanto pessoas e grupos de pessoas.
As tecnologias à disposição mais do que nunca estão possibilitando descobertas e novas discussões sobre comunidades e diversidade. Entretanto, devemos estar atentos para que elas não sejam usadas como forma de perfilar ou potencialmente discriminar indivíduos. Nesse contexto, a privacidade diferencial é uma técnica de extrema relevância para manter o equilíbrio entre os direitos de proteção de dados e de acesso à informação.
Se você se interessou pelo tema de privacidade e tratamento de dados pessoais, acesse aqui o vídeo produzido pelo IRIS sobre o assunto.
As opiniões e perspectivas retratadas neste artigo pertencem a seu autor e não necessariamente refletem as políticas e posicionamentos oficiais do Instituto de Referência em Internet e Sociedade.
Ilustração por Freepik
Escrito por
Lahis Kurtz (Ver todos os posts desta autoria)
Coordenadora de Pesquisa e pesquisadora no Instituto de Referência em Internet e Sociedade (IRIS), Doutoranda em Direito na Universidade Federal de Minas Gerais (UFMG), Mestra em Direito da Sociedade de Informação e Propriedade Intelectual pela Universidade Federal de Santa Catarina (UFSC), Graduada em Direito pela Universidade Federal de Santa Maria (UFSM).
Membro dos grupos de pesquisa Governo eletrônico, inclusão digital e sociedade do conhecimento (Egov) e Núcleo de Direito Informacional (NUDI), com pesquisa em andamento desde 2010.
Interesses: sociedade informacional, direito e internet, governo eletrônico, governança da internet, acesso à informação. Advogada.