Como começar a explorar seus dados genômicos brutos

Sequenciamento de próxima geração

O DNA é uma molécula que codifica o projeto de cada organismo vivo. O DNA é uma molécula em forma de cadeia de comprimento variável composta por quatro blocos de construção, comumente chamados de letras. As quatro letras do DNA são adenina (A), timina (T), citosina (C) e guanina (G). Os métodos que determinam a sequência de letras das moléculas de DNA são chamados de sequenciamento. O sequenciamento de última geração (NGS) é uma tecnologia de sequenciamento de DNA de alto rendimento que permite a leitura de bilhões de moléculas de DNA em paralelo. Isso gera bilhões de leituras de sequenciamento curto (~ 150 letras) que são armazenadas em arquivos de texto no Formato FASTQ .

Lançamos Nebula Explore para criar uma entrada acessível para o sequenciamento de todo o genoma pessoal. O Nebula Explore é um sequenciamento raso de todo o genoma com uma cobertura média de 0,4x por base que resulta em ~ 1,3 bilhões de bases sequenciadas de ~ 6,4 bilhões de bases no genoma humano. Em comparação, a maioria das outras empresas de genômica pessoal, incluindo 23andMe e AncestryDNA, usa genotipagem baseada em microarray que lê o genoma humano em apenas cerca de 500.000 posições.

Processamento de dados de sequenciamento

A sequência contínua de DNA de um genoma humano pode ser reconstruída computacionalmente usando sobreposições entre leituras de sequenciamento curtas. A reconstrução de um genoma pode ser facilitada se um genoma de referência está disponível para que as leituras de sequenciamento possam ser alinhadas. A utilização de genomas de referência é possível porque os representantes de uma espécie são geneticamente muito semelhantes – por exemplo, quaisquer duas sequências do genoma humano são quase idênticas. Por exemplo, para Nebula Explore, usamos o genoma de referência humano GRCh37 (hg19). Por meio deste, uma ferramenta de alinhamento de sequência é usada para mapear leituras curtas armazenadas em um arquivo FASTQ para o genoma de referência GRCh37 (Figura 1). Isso gera um Mapa de alinhamento binário (BAM) e um arquivo BAI (Índice de alinhamento binário) associado. Os arquivos FASTQ normalmente são descartados após a geração de arquivos BAM, pois nenhuma informação é perdida durante o processo de alinhamento. Os arquivos BAM podem ser facilmente transformados de volta em arquivos FASTQ, por exemplo, usando samtools :

samtools fastq input.bam> output.fastq

DNA Variant Calling
Figura 1. Reconstruções de um genoma alinhando leituras curtas a um genoma de referência.

Depois que as leituras de sequenciamento são alinhadas a um genoma de referência, as diferenças entre o genoma sequenciado e o genoma de referência podem ser identificadas. Esse processo é chamado de “chamada de variante” e produz arquivos no formato de chamada de variante (VCF). Por meio deste, imputamos a porção não sequenciada do genoma usando um conjunto de genomas de referência que foi gerado pelo Projeto 1000 Genomes . Isso resulta em uma precisão média de ~ 99% por base em todo o genoma, o que é suficientemente alto para prever ancestralidade e características. Para usuários que desejam obter informações sobre os riscos de doenças, status de portador e farmacogenômica, em breve lançaremos nosso sequenciamento de genoma completo de nível clínico que atinge maior precisão sequenciando cada posição no genoma em média 30 vezes.

Explorando Dados Genômicos

A primeira iteração do relatório Nebula Explore inclui predição de ancestralidade e 27 características diferentes. No entanto, é importante entender que o sequenciamento do genoma pessoal é o início de uma jornada que continuamente produzirá mais insights, especialmente à medida que a ciência avança e novas descobertas são feitas. Assim, adicionaremos regularmente novos traços aos nossos relatórios, bem como aumentaremos continuamente a granularidade de nossas previsões de ancestralidade.

Também damos aos nossos usuários acesso a seus dados genômicos (arquivos BAM, BAI e VCF) e os convidamos a explorar seus próprios dados. Como o upload de dados genômicos pessoais para sites de terceiros apresenta riscos de privacidade, queremos apresentar algumas ferramentas que podem ser usadas localmente em computadores pessoais.

Visualizando arquivos BAM com um navegador genoma

Navegadores de genoma são usados para navegar por leituras alinhadas a uma sequência de genoma de referência e armazenadas em arquivo BAM. Você pode experimentar o Visualizador interativo de genoma (IGV) .

  1. Baixar IGV para o seu sistema operacional e instale-o.
  2. Baixe seus arquivos BAM e BAI através de sua conta Nebula Genomics.
  3. Abra o IGV e defina o genoma de referência para hg19 (lista suspensa no canto superior esquerdo) e baixe-o para melhor desempenho (Figura 2). Para fazer isso, vá para a barra de menu e selecione “Genomes” → “Carregar Genoma para Servidor…” → “Human hg19” e marque a caixa para “Baixar Sequência”.
  4. Arraste e solte seu arquivo BAM no IGV. Seu arquivo BAI deve estar na mesma pasta que seu arquivo BAM.
  5. Visualize suas leituras de sequenciamento alinhadas ao genoma de referência selecionando cromossomos (1) ou pesquise por nomes de genes (2) e, em seguida, amplie a sequência (3).
Visualizador interativo de genoma
Figura. 2 Visualizador de genoma interativo

Determinando o haplogrupo mtDNA

Mitocôndria são organelas celulares que geram a maior parte do suprimento de energia química da célula. As mitocôndrias também têm seu próprio genoma, que é transmitido pelas mães aos filhos. Haplogrupos de DNA mitocondrial humano (mtDNA) representam os principais pontos de ramificação no caminho evolutivo da linhagem feminina. Ele permite rastrear os humanos modernos de volta às suas origens na África e a subsequente propagação ao redor do globo (Figura 3).

haplogrupos mtDNA
Figura 3. Haplogrupos do mtDNA ao redor do globo. Adaptado de FamilyTreeDNA.

Você pode determinar seu haplogrupo analisando as leituras de mtDNA em seu arquivo BAM. Para isso, você pode usar o BAM Analysis Kit.

  1. Baixe e inicie o Kit de Análise BAM . Esta ferramenta está disponível apenas para PCs com Windows. ( Solução de problemas do Windows )
  2. Escolha “M” para mtDNA (1) conforme mostrado na Figura 4. Desmarque todas as outras caixas.
  3. Clique em “Browse” (2) e selecione seu arquivo BAM.
  4. Clique em Iniciar análise. O processamento pode demorar até uma hora.
  5. Abra o arquivo MtDNA_Haplogroup.txt para localizar seu haplogrupo mtDNA.
Kit de análise BAM
Figura 4. Determinando o haplogrupo do mtDNA com o kit de análise BAM.

Convertendo arquivos VCF em arquivos 23andMe

O formato de arquivo 23andMe é atualmente o formato mais popular para dados genômicos pessoais. Portanto, a maioria das ferramentas voltadas para o consumidor aceita arquivos no formato 23andMe como entrada. Para usar essas ferramentas, você pode converter seu arquivo VCF em um arquivo no formato 23andMe. Observe que os arquivos VCF do Nebula Explore contêm muito mais informações do que os arquivos 23andMe. Ao converter para o formato 23andMe, estamos descartando muitas informações para fins de compatibilidade com as ferramentas comumente usadas.

1. Baixe VCF-to-23andMe . Os dois scripts neste diretório requerem Python 3.

2. Primeiro, execute o script data_to_db.py usando seu arquivo VCF como entrada. Isso gera o arquivo genome.db:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. Em seguida, execute o script db_to_23.py usando o arquivo genome.db como entrada. Isso produz um arquivo no formato 23andMe:

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

Calculando a porcentagem de DNA de Neandertal

Os neandertais são uma espécie extinta de humanos que viveu na Eurásia até 40.000 anos atrás. Porque Neandertais cruzaram com humanos modernos , a maioria das pessoas tem algum DNA de Neandertal em seu genoma. Você pode usar a Calculadora Antiga para descobrir quanto do seu genoma é compartilhado com os Neandertais e outros parentes humanos antigos.

  1. Baixe e lance Calculadora Antiga (Figura 5). Esta ferramenta está disponível apenas para PCs com Windows.
  2. Selecione uma amostra de DNA antigo com a qual deseja comparar seus dados genéticos (1). Por exemplo, selecione “Altai Neanderthal”.
  3. Clique em “BROWSE” e selecione seus dados genômicos no formato 23andMe que você gerou de seu arquivo VCF. O cálculo leva apenas alguns segundos.
Calculadora antiga para encontrar DNA de Neandertal em um genoma humano
Figura 5. Calculadora Antiga.

Mais recursos para exploração de dados