Cada organismo começa como uma única célula. Por meio de rodadas repetidas de divisão celular, sua evolução dá origem a organismos complexos que podem ser compostos por bilhões de diferentes tipos de células. Como se define o destino dos descendentes de uma célula de um embrião humano para que alguns se tornem músculo cardíaco e outros se tornem tecido nervoso?
O rastreamento da
linhagem celular fornece a estrutura para a compreensão de quando, onde e como
o destino das células é decidido. E, uma vez que com cada divisão celular algo
pode dar errado, a capacidade de mapear a via de diferenciação celular pode
lançar luz sobre como surgem os problemas de desenvolvimento e as doenças.
Em um artigo científico publicado
recentemente na Cell Systems¹, os pesquisadores detalham um possível caminho a
seguir para resolver árvores de linhagens celulares maiores, incluindo humanos.
Uma árvore celular
da vida
Assim como Charles
Darwin mapeou as árvores evolucionárias dos organismos, agora os geneticistas
estão trabalhando para reconstruir as árvores da linhagem celular, ou seja, a
história do desenvolvimento das células à medida que se dividem e se
diferenciam. Embora seja verdade que estejamos longe de compreender totalmente
as linhagens de organismos complexos, a inteligência artificial (IA) pode
ajudar a acelerar nossa descoberta e compreensão.
A primeira árvore de
linhagem celular, para o pequeno nematoide Caenorhabditis elegans (C.
elegans), foi meticulosamente concluída décadas atrás com a ajuda
de um microscópio óptico.
A reconstrução da linhagem celular deu um salto nas últimas décadas com o advento das ferramentas moleculares baseadas em CRISPR. O CRISPR visa a inserção de uma matriz de DNA na célula, que gera um conjunto de mutações em um local específico no material genético de uma célula. Isso, por sua vez, serve como um marcador para permitir aos pesquisadores inferir iterações de linhagem adicionais para aquela célula.
Seguiram-se diferentes
versões de métodos baseados em CRISPR, mas esses métodos têm limitações. Há
muito "ruído" nos dados, pois as mutações CRISPR ocorrem com alguma
aleatoriedade, e o sequenciamento nem sempre detecta todas. Também existem
restrições à "memória" total do DNA disponível para registro, pois
uma série real de caracteres que o CRISPR tem como alvo é inserida no genoma da
célula. Além disso, os mesmos padrões de edição às vezes aparecem
espontaneamente em células não relacionadas, ou a sequência editada por CRISPR
é removida durante a divisão celular. Além disso, não há como verificar se
essas inferências são precisas ou não.
Um desafio de
crowdsourcing
Pablo Meyer Rojas, gerente de análise
e modelagem biomédica do Centro de Saúde Computacional da IBM, junto com seus
colegas Michael Elowitz, professor de
biologia e bioengenharia da Caltech, e Jay Shendure, professor de
ciências de genoma na Universidade de Washington, tiveram a ideia de aplicar
técnicas de aprendizado de máquina para sua pesquisa. A IA poderia encontrar
novos algoritmos para reconstruir linhagens celulares e criar benchmarks
para sua precisão?
Com o objetivo de
encontrar algoritmos para testar, organizaram o DREAM Challenge de Reconstrução de
Linhagem do Instituto Allen, que decorreu de outubro de 2019 a fevereiro de
2020. O DREAM Challenge (acrônimo em inglês
de Diálogo para Engenharia Reversa e Métodos) foi uma forma de estudar os
esforços em engenharia reversa para redes biológicas de conjuntos de dados de
alto rendimento ou soluções que usam grandes quantidades de dados.
Eles criaram três
conjuntos de treinamento para uso das equipes participantes. Incluíram árvores
de linhagens celulares, tanto in vitro quanto in silico,
compostas por 100 células, 1.000 células (C. elegans) e 10.000 células (uma
simulação em camundongo), junto com os arranjos de caracteres de suas células
modificadas por um mecanismo semelhante ao CRISPR. Além disso, eles forneceram
a solução de referência gold-standard de árvore, para que as equipes
treinem ou otimizem seus métodos.
Benchmarking de
abordagens de IA
Foram apresentadas
10 equipes com um total de 22 propostas para os três desafios, e entre elas
encontraram alguns vencedores. Dois métodos originais, chamados DCLEAR (reconstrução de
linhagem celular baseada na distância) e AMberLand, foram os que mais
se destacaram. O primeiro usa uma estimativa da distância entre as células com
base em diferentes comprimentos de caracteres; a segunda aplica, de forma inovadora,
um método clássico de machine learning denominado Gradient Boosting,
técnica de aprendizado de máquina que produz um modelo de predição na forma de
uma árvore com base na combinação de pequenas árvores.
Os pesquisadores
também aprenderam que a escolha da taxa de mutação e diversidade de mutações
nas simulações têm um forte efeito na precisão da reconstrução da linhagem
celular. Há um ponto ideal entre as taxas de mutação "muito baixas" e
"muito altas".
Os resultados
mostram que pode ser possível treinar algoritmos em árvores menores e então
usá-los para construir outros que podem ser utilizados em prol de reconstruir árvores muito
maiores, incluindo humanos. Ter um conjunto de árvores de treinamento com a solução real foi
essencial, tanto no desenvolvimento de novas abordagens quanto para se chegar a
essa conclusão.
Sim, é possível
revelar o mistério de como o corpo humano se origina de uma única célula, e
esse conhecimento pode nos levar a novos tratamentos e até mesmo curas para
doenças congênitas e problemas de desenvolvimento, da Síndrome de Down ao
câncer. É um desafio perfeito para a IA devido à complexidade do problema, e
sua recompensa é potencialmente enorme. Isso também mostra que ainda existem
muitos campos em que a IA pode ser aplicada para ter um impacto real na
melhoria das previsões. Tudo o que é necessário são novas ideias e novos
conjuntos de dados.
*Para visualizar o artigo original, você pode
visitar o IBM Research Blog aqui.
¹ Gong, W., Granados, A., Hu, J., et al. Benchmarked approaches for
reconstruction of in vitro cell lineages and in silico models of C. elegans and
M. musculus developmental trees. Cell Systems. Volumen 12, ISSUE 8,
P810-826.e4, 18 de agosto de 2021.
Nenhum comentário:
Postar um comentário