“Google para DNA”: cientistas lançam motor de busca revolucionário para código genético

Por Marcelo Ribeiro, em 23.10.2025

Em vez de vasculhar manualmente enormes arquivos biológicos, uma equipe da ETH Zurich apresentou uma ferramenta capaz de localizar sequências de DNA e RNA em segundos — uma espécie de “Google para DNA”.

Por que isso é importante

Há anos, avanços em sequenciamento (em especial os métodos de nova geração) abriram caminhos decisivos para a medicina molecular — por exemplo na identificação de doenças hereditárias raras e na detecção de mutações dentro de tumores. Entre 2020 e 2021, esses métodos foram cruciais para decodificar rapidamente o genoma do SARS-CoV-2 e monitorar sua evolução global.

Como resultado dessa explosão de dados, muitos pesquisadores passaram a depositar seus resultados em repositórios públicos. Hoje, bancos como o SRA (Sequence Read Archive) dos EUA e o ENA (European Nucleotide Archive) na Europa acumulam cerca de 100 petabytes de dados — equivalentes, grosso modo, a todo o texto da internet.

O problema é que — até agora — buscar por uma sequência genética exigia baixar arquivos pesadíssimos e usar supercomputadores. A limitação era tanto de custo quanto de tempo, o que tornava certas investigações praticamente inviaveis.

A ferramenta MetaGraph da ETH propõe romper essa barreira: ela transforma os armazenamentos brutos de DNA/RNA em um índice pesquisável, eliminando a necessidade de transferir terabytes para fazer uma consulta.

Como o “Google genético” funciona

Indexação e compressão inteligente

O segredo por trás do MetaGraph está em algoritmos e estruturas de dados que comprime bilhões de bases biológicas — em média com fator de 300 — mantendo a integridade do conteudo. Nesse processo, metadados e sequências “brutas” ficam interligados de modo a preservar a relevância das buscas.

A construção desse índice faz uso de grafos anotados tipo de Bruijn, combinando eficiência com escalabilidade. Ou seja: conforme mais dados são adicionados, o custo computacional cresce de modo controlado.

Consultas em segundos, custos mínimos

Depois de indexar os dados públicos, o pesquisador insere uma sequência de interesse — em formato texto — e o sistema informa, em segundos ou minutos, onde ela já apareceu no conjunto público Nada de baixar tudo e filtrar depois.

Os criadores estimam que consultas pequenas (até 1 megabase) custem cerca de US$ 100, e consultas maiores, da ordem de US$ 0,74 por megabase.

Além disso, toda a base indexada caberia em apenas alguns discos rígidos convencionais, o que torna a solução mais acessível para grupos menores ou institutos com poucos recursos.

Impactos potenciais e casos de uso

Pesquisa de resistência a antibióticos

Com o MetaGraph, é possível varrer bancos de dados em busca de genes resistentes ou mesmo vírus que combatem bactérias (bacteriófagos) — algo que antes levaria dias ou semanas.

Por exemplo, a equipe já aplicou o sistema para monitorar marcadores de resistência em amostras de microbioma humano — tarefa que foi concluida em cerca de uma hora em uma máquina potente.

Democratização da pesquisa genética

Atualmente metade dos dados globais de sequenciamento já estão indexados. Os autores esperam completar o restante até o fim do ano.

Como o software é open source, empresas farmacêuticas ou laboratórios privados também podem integrá-lo aos seus acervos internos potencialmente acelerando descobertas.

Em tom ambicioso, André Kahles, um dos coautores, prevê que no futuro até leigos poderão usar algo assim para identificar plantas da varanda ou características genéticas pessoais — algo que soaria como ficção meses atrás.

Curiosidades técnicas e desafios

Embora a compressão média seja de 300×, o processo envolve escolhas: nem todos os fragmentos de sequência são preservados com igual detalhamento. Em alguns casos, limpar ruído de sequenciamento pode causar perda de sensibilidade nas buscas. Nature+1

Além disso, sequências ruidosas ou homólogas distantes podem não ser detectadas com extrema precisão — especialmente em tecnologias de sequenciamento com alto erro de base. Nature

Limites da indexação atual

Até agora, foram indexadas cerca de 18,8 milhões de conjuntos únicos de DNA/RNA e 210 bilhões de resíduos de aminoácidos de todas as formas de vida (vírus, bactérias, fungos, plantas, animais, humanos)

Contudo, a indexação é, por enquanto, parcial — ainda há metade dos dados públicos por incluir. Conforme essa cobertura for aumentando, o valor do sistema cresce exponencialmente.

Como quem vive entre prazos, edições e debates academicos, vejo no MetaGraph uma virada de paradigma: não se trata apenas de uma ferramenta mais rápida, mas de uma mudança de paradigma no acesso à biomassa informacional. É como se, de repente, todos os biólogos do mundo ganhassem um “Google interno” para genomas.

Claro que nem tudo será simples: manter coerência, atualizar índices constantes, lidar com dados ruidosos e garantir que resultados falsos positivos sejam mínimos são desafios reais. Mas estou otimista: essa abordagem poderá destravar inferências que hoje nem ousamos tentar.

Também penso no Brasil: imagine aplicar isso a bancos genômicos nacionais, biodiversidade amazônica ou emergências sanitárias locais. Se integrarmos capacidades tecnicas com demandas reais, poderemos fazer descobertas que hoje dependem de infraestrutura ultracara. Via Nature

Deixe seu comentário!

Cancelar resposta

Você precisa fazer o login para publicar um comentário.