Todos os dias, bilhões de pessoas interagem com
interfaces que as ajudam a acessar informações e tomar decisões. À medida que
quantidades crescentes de dados se tornam disponíveis, algoritmos baseados em Big Data
são difundidos em todos os aspectos da vida cotidiana.
Muitas decisões são tomadas usando modelos
preditivos baseados em dados, por exemplo: precificação e recomendações personalizadas,
pontuação de crédito, seleção automatizada de currículos de candidatos a
emprego, perfis de possíveis suspeitos pela polícia e muitos outros.
A coleta maciça e automatizada de dados ocorre como
consequência dos rastros digitais onipresentes que todos geramos em nossas
vidas. A disponibilidade de tal riqueza de dados torna sua publicação e análise
altamente desejáveis para uma variedade de propósitos. No entanto, existem pelo
menos duas ameaças potenciais para indivíduos cujas informações são publicadas:
invasão de privacidade e potencial de discriminação.
A invasão de privacidade ocorre quando os valores
dos atributos sensíveis publicados podem ser vinculados a indivíduos (ou
empresas) específicos. Discriminação é o tratamento injusto ou desigual dado a
pessoas com base em membros de uma categoria, grupo ou minoria, sem considerar
as características individuais.
Usualmente, as técnicas algorítmicas eliminam os
vieses humanos no processo de tomada de decisão, mas um algoritmo é tão bom
quanto os dados com os quais trabalha. E a discriminação pode resultar do
treinamento de modelos de mineração de dados (por exemplo, classificadores) que
são tendenciosos contra certos grupos protegidos (etnia, gênero, religião,
preferências políticas etc.).
Modelos preditivos podem discriminar, mesmo que o
processo de computação seja justo e bem intencionado. Isso ocorre porque a
maioria dos métodos são baseados em suposições de que os dados históricos então
corretos e representam bem a população – o chamado viés algorítmico.
Os esforços para garantir a privacidade levaram ao
desenvolvimento do controle estatístico de divulgação e mineração de dados
preservados. Diferentes modelos e suas variações foram propostos para proteger
contra diferentes tipos de ataques, entre eles: k-Anonymity, l-diversity,
t-closenees.
A questão da discriminação é considerada a partir
de uma perspectiva de mineração de dados, mais precisamente em duas direções: descoberta
da discriminação e prevenção da discriminação.
A descoberta visa encontrar padrões
discriminatórios usando métodos de mineração de dados. Essa abordagem
tipicamente minera as regras de associação e classificação dos dados e, em
seguida, avalia essas regras em termos de discriminação potencial.
Uma abordagem estatística mais tradicional para a
descoberta de discriminação geralmente ajusta um modelo de regressão aos dados,
incluindo os recursos protegidos (como gênero, raça etc.), e analisa a
magnitude e significância estatística dos coeficientes de regressão nos
atributos. Se esses coeficientes parecerem significativos, a discriminação será
sinalizada.
A prevenção da discriminação desenvolve algoritmos
que produzem modelos preditivos, garantindo que esses modelos sejam livres de
discriminação. O objetivo é ter um modelo (regra de decisão) que obedeça às
restrições de não discriminação.
Sendo assim, à medida que os algoritmos se tornam
mais comuns na implementação de sistemas tecnológicos, estudar o mundo
significa estudar algoritmos. O viés pode abranger uma grande variedade de
investigações e questões com importantes implicações de interesse público que
demandam escrutínio algorítmico.
Descobrir como os algoritmos se comportam pode
levar a uma discussão difícil, mas importante: como nós, a sociedade, queremos
que esses algoritmos se comportem?
Débora Morales - mestra em
Engenharia de Produção (UFPR) na área de Pesquisa Operacional com ênfase a
métodos estatísticos aplicados à engenharia e inovação e tecnologia,
especialista em Engenharia de Confiabilidade (UTFPR), graduada em Estatística e
em Economia. Atua como Estatística no Instituto das Cidades Inteligentes (ICI).
Nenhum comentário:
Postar um comentário