Estudo de grupo da USP publicado em revista científica descreve a construção da base de dados e a modelagem com os primeiros resultados (foto: Freepik)
Pesquisadores da Universidade de São Paulo (USP) estão usando
inteligência artificial e uma das maiores plataformas do mundo, o Twitter, para
tentar criar modelos de predição de ansiedade e depressão que, no futuro, podem
dar sinais desses transtornos antes do diagnóstico clínico.
A construção da base de dados, chamada SetembroBR, foi um
primeiro passo e está descrita em artigo publicado na
revista científica Language Resources and
Evaluation. O nome é uma homenagem ao movimento Setembro Amarelo –
uma campanha de prevenção ao suicídio realizada anualmente – e também pelo fato
de a coleta de dados ter começado em um mês de setembro.
Na segunda
etapa do trabalho, ainda em desenvolvimento, os cientistas conseguiram alguns
resultados preliminares. Entre eles, o que aponta ser possível detectar se uma
pessoa apresenta maior risco de vir a desenvolver depressão apenas com base na
rede social de amigos e seguidores, ou seja, sem levar em conta as postagens
feitas pelo próprio indivíduo.
A base criada pelo grupo engloba informações relacionadas a texto (em
português) e à rede de conexões de 3,9 mil usuários do Twitter que,
posteriormente ao levantamento, relataram diagnóstico ou tratamento de
transtorno mental. O corpus (ou a
coletânea de informações sobre determinado tema) inclui todos os tweets
públicos escritos por esses usuários individualmente – sem retuítes –,
totalizando cerca de 47 milhões desses pequenos textos.
“Inicialmente fizemos uma coleta nas timelines em um
trabalho artesanal, analisando textos de cerca de 19 mil usuários do Twitter, o
que corresponde quase à população de uma pequena cidade. E depois usamos dois
conjuntos – uma parte de usuários realmente diagnosticados com transtornos mentais
e outra aleatória, que serviu de controle. Queríamos diferenciar pessoas com
depressão e a população em geral”, explica Ivandre Paraboni,
professor da Escola de Artes, Ciências e Humanidades (EACH-USP) e autor
correspondente do artigo.
Além dos usuários, a pesquisa coletou textos da rede de amigos e de
seguidores. Isso porque é comum uma pessoa que tenha algum tipo de transtorno
mental seguir determinadas contas, como fóruns de discussão ou alguma
celebridade que publicamente assumiu estar com depressão. “Essas pessoas se
atraem porque têm interesses comuns”, completa Paraboni, que é pesquisador
associado do Centro de Inteligência Artificial (C4AI), um
Centro de Pesquisa em Engenharia (CPE)
constituído por FAPESP e IBM Brasil na USP.
A Fundação também apoia o estudo por meio do projeto “Análise da linguagem em redes
sociais para detecção precoce de transtornos de saúde mental”,
liderado por Paraboni.
Distúrbios de saúde mental, entre eles depressão e ansiedade, têm sido
apontados pela Organização Mundial da Saúde (OMS) como uma preocupação
crescente no mundo. Estimativas do órgão calculam que cerca de 3,8% da
população – ou 280 milhões de pessoas – é afetada pela depressão, de acordo
com dados de
2021.
Com a pandemia de COVID-19, período em que os textos do Twitter foram
coletados pelos pesquisadores, houve um aumento de 25% na prevalência global de
ansiedade e depressão.
No Brasil,
estudo recente do Ministério da Saúde envolvendo 784 mil participantes revelou
que 11,3% dos brasileiros já foram diagnosticados com depressão, sendo a maior
parte mulheres.
Pesquisas
anteriores mostraram que transtornos mentais muitas vezes se refletem na
linguagem usada por indivíduos que sofrem dessas condições, o que levou à
realização de número considerável de trabalhos envolvendo Processamento de
Linguagem Natural (NLP, na sigla em inglês), com foco em depressão, ansiedade e
transtorno bipolar, entre outros. Porém, a maior parte foi realizada para a
língua inglesa, nem sempre refletindo o perfil brasileiro.
Modelos
Para realizar o estudo, o grupo da USP submeteu o corpus textual a procedimentos de
pré-processamento e limpeza de dados para remover hashtags, URLs, emoticons e
caracteres fora do padrão, mas mantendo a escrita original.
Foram utilizados métodos de aprendizado profundo (do inglês deep learning) para criar quatro classificadores de
texto e embeddings de palavras individualizadas ou
dependentes de contexto usando modelos baseados em transformers do tipo BERT
(um algoritmo de aprendizado profundo). Esses modelos correspondem a uma rede
neural que aprende o contexto e o significado com o monitoramento de relações
em dados sequenciais, como palavras em uma frase.
Como
entrada, foi utilizada uma amostra de 200 tweets selecionados aleatoriamente de
cada usuário. Os parâmetros são definidos executando cinco vezes a validação
cruzada dos dados de treinamento e calculando os resultados médios.
A pesquisa
detectou que os modelos de transformers do tipo BERT foram os que tiveram
melhor desempenho nas tarefas de previsão de depressão e transtorno de
ansiedade. A diferença entre ele e a segunda melhor alternativa, a LogReg, foi
estatisticamente significativa.
Como os
modelos analisam sequências de palavras ou frases inteiras, observou-se que
indivíduos com depressão, por exemplo, tendem a falar de assuntos relacionados
a eles mesmos, usando expressões e verbos na primeira pessoa, e temas como
morte, crise e psicólogo.
“Os
indicativos de depressão que aparecem no consultório não são necessariamente os
mesmos que estão na rede social. Por exemplo: percebemos, de maneira bem forte,
o uso na rede de pronomes na primeira pessoa, como “eu” e “mim”, o que na
psicologia é um indicativo clássico de depressão. Mas também constatamos uma
incidência alta entre os usuários depressivos da utilização do símbolo de
coraçãozinho, o emoji da afetividade, que talvez ainda não esteja caracterizado
na psicologia”, afirma Paraboni.
O
professor destaca que os textos foram coletados totalmente anonimizados. “Não
divulgamos nenhum tweet nem o nome de usuários. Tomamos o cuidado de nem os
próprios alunos envolvidos no projeto terem acesso a dados de usuários para
proteger a identidade das pessoas”, diz.
Agora,
além de ampliar a base de dados, os pesquisadores trabalham para refinar a
técnica computacional empregada e aprimorar os modelos iniciais visando, no
futuro, uma ferramenta que talvez possa vir a ser aplicada na prática. Poderia
auxiliar tanto em uma eventual triagem inicial de pessoas com indicativos de
transtornos como ajudar pais, familiares e amigos de jovens com risco de
depressão e ansiedade.
O Brasil é
o terceiro país que mais consome redes sociais no mundo, segundo levantamento
divulgado no início de março pela Comscore, atrás de Índia e Indonésia e à
frente de Estados Unidos, México e Argentina.
São 131,5
milhões de usuários conectados no país durante 46 horas por mês, em média, o
que representa quase dois dias inteiros. As redes mais acessadas pelos
brasileiros são YouTube, Facebook, Instagram, TikTok, Kwai e Twitter, que
recentemente mudou suas regras, além de passar a cobrar por alguns tipos de
serviços.
O artigo SetembroBR: a social media corpus for depression and anxiety disorder prediction pode ser lido em: https://link.springer.com/article/10.1007/s10579-022-09633-0#Ack1.
Luciana Constantino
Agência FAPESP
https://agencia.fapesp.br/cientistas-usam-inteligencia-artificial-e-rede-social-para-criar-modelo-que-preve-ansiedade-e-depressao/41055/