Comment commencer à explorer vos données génomiques brutes

Séquençage de nouvelle génération

L’ADN est une molécule qui code le plan directeur de chaque organisme vivant. L’ADN est une molécule en forme de chaîne de longueur variable composée de quatre éléments constitutifs, communément appelés lettres. Les quatre lettres de l’ADN sont l’adénine (A), la thymine (T), la cytosine (C) et la guanine (G). Les méthodes qui déterminent la séquence de lettres des molécules d’ADN sont appelées séquençage. Le séquençage de nouvelle génération (NGS) est une technologie de séquençage d’ADN à haut débit qui permet la lecture de milliards de molécules d’ADN en parallèle. Cela génère des milliards de lectures de séquençage courtes (~ 150 lettres) qui sont stockées dans des fichiers texte dans le Format FASTQ .

Nous avons lancé Nébuleuse Explorer pour créer une entrée abordable pour le séquençage personnel du génome entier. Nebula Explore est un séquençage du génome entier peu profond à une couverture moyenne de 0,4x par base qui se traduit par ~ 1,3 milliard de bases séquencées sur ~ 6,4 milliards de bases dans le génome humain. En comparaison, la plupart des autres sociétés de génomique personnelles, y compris 23andMe et AncestryDNA, utilisent le génotypage basé sur des puces à ADN qui lit le génome humain à seulement environ 500 000 positions.

Traitement des données de séquençage

La séquence d’ADN continue d’un génome humain peut être reconstruite par ordinateur en utilisant des chevauchements entre de courtes lectures de séquençage. La reconstruction d’un génome peut être facilitée si un génome de référence est disponible sur lequel les lectures de séquençage peuvent être alignées. L’utilisation de génomes de référence est possible parce que les représentants d’une espèce sont génétiquement très similaires – par exemple, deux séquences du génome humain sont presque identiques. Par exemple, pour Nebula Explore, nous utilisons le génome de référence humain GRCh37 (hg19). Par la présente, un outil d’alignement de séquence est utilisé pour mapper les lectures courtes stockées dans un fichier FASTQ au génome de référence GRCh37 (Figure 1). Cela génère un Carte d’alignement binaire (BAM) et un fichier BAI (Binary Alignment Index) associé. Les fichiers FASTQ sont généralement ignorés après la génération des fichiers BAM, car aucune information n’est perdue pendant le processus d’alignement. Les fichiers BAM peuvent être facilement reconvertis en fichiers FASTQ, par exemple en utilisant samtools :

samtools fastq input.bam> output.fastq

Appel de variante ADN
Figure 1. Reconstructions d’un génome en alignant de courtes lectures sur un génome de référence.

Une fois les lectures de séquençage alignées sur un génome de référence, les différences entre le génome séquencé et le génome de référence peuvent être identifiées. Ce processus est appelé «appel de variante» et produit des fichiers au format d’appel de variante (VCF). Par la présente, nous imputons la partie non séquencée du génome à l’aide d’un ensemble de génomes de référence qui a été généré par le Projet 1000 génomes . Cela donne une précision moyenne d’environ 99% par base sur l’ensemble du génome, ce qui est suffisamment élevé pour prédire l’ascendance et les traits. Pour les utilisateurs qui souhaitent avoir un aperçu des risques de maladie, du statut de porteur et de la pharmacogénomique, nous lancerons bientôt notre séquençage du génome entier de qualité clinique qui atteint une plus grande précision en séquençant chaque position dans le génome en moyenne 30 fois.

Explorer les données génomiques

La première itération du rapport Nebula Explore comprend la prédiction de l’ascendance et 27 traits différents. Cependant, il est important de comprendre que le séquençage personnel du génome est le début d’un voyage qui fournira continuellement plus d’informations, en particulier à mesure que la science avance et que de nouvelles découvertes sont faites. Ainsi, nous ajouterons régulièrement de nouveaux traits à nos rapports et augmenterons continuellement la granularité de nos prédictions d’ascendance.

Nous donnons également à nos utilisateurs l’accès à leurs données génomiques (fichiers BAM, BAI et VCF) et les invitons à explorer eux-mêmes leurs données. Étant donné que le téléchargement de données génomiques personnelles sur des sites Web tiers présente des risques pour la vie privée, nous souhaitons introduire quelques outils pouvant être utilisés localement sur des ordinateurs personnels.

Affichage des fichiers BAM avec un navigateur génomique

Les navigateurs génomiques sont utilisés pour parcourir les lectures alignées sur une séquence génomique de référence et stockées dans un fichier BAM. Vous pouvez essayer le Visionneuse interactive du génome (IGV) .

  1. Télécharger IGV pour votre système d’exploitation et installez-le.
  2. Téléchargez vos fichiers BAM et BAI via votre compte Nebula Genomics.
  3. Ouvrez IGV et définissez le génome de référence sur hg19 (liste déroulante en haut à gauche) et téléchargez-le pour de meilleures performances (Figure 2). Pour ce faire, allez dans la barre de menu et sélectionnez «Genomes» → «Load Genome for Server…» → «Human hg19» et cochez la case «Download Sequence».
  4. Faites glisser et déposez votre fichier BAM dans IGV. Votre fichier BAI doit se trouver dans le même dossier que votre fichier BAM.
  5. Affichez vos lectures de séquençage alignées sur le génome de référence en sélectionnant les chromosomes (1) ou en effectuant une recherche par nom de gène (2), puis en zoomant sur la séquence (3).
Visionneuse interactive du génome
Figure. 2 visionneuse interactive du génome

Détermination de l’haplogroupe d’ADNmt

Mitochondries sont des organites cellulaires qui génèrent la majeure partie de l’apport d’énergie chimique de la cellule. Les mitochondries ont également leur propre génome qui est transmis par les mères à leurs enfants. Haplogroupes d’ADN mitochondrial humain (ADNmt) représentent les principaux points de ramification dans le chemin évolutif de la lignée féminine. Il permet de retracer les humains modernes jusqu’à leurs origines en Afrique et leur propagation ultérieure dans le monde entier (Figure 3).

haplogroupes d'ADNmt
Figure 3. haplogroupes d’ADNmt dans le monde entier. Adapté de FamilyTreeDNA.

Vous pouvez déterminer votre haplogroupe en analysant les lectures d’ADNmt dans votre fichier BAM. Pour cela, vous pouvez utiliser le kit d’analyse BAM.

  1. Téléchargez et lancez le Kit d’analyse BAM . Cet outil est disponible uniquement pour les PC Windows. ( Dépannage Windows )
  2. Choisissez «M» pour ADNmt (1) comme illustré à la figure 4. Décochez toutes les autres cases.
  3. Cliquez sur «Parcourir» (2) et sélectionnez votre fichier BAM.
  4. Cliquez sur Démarrer l’analyse. Le traitement peut prendre jusqu’à une heure.
  5. Ouvrez le fichier MtDNA_Haplogroup.txt pour trouver votre haplogroup ADNmt.
Kit d'analyse BAM
Graphique 4. Détermination de l’haplogroupe d’ADNmt avec le kit d’analyse BAM.

Conversion de fichiers VCF en fichiers 23andMe

Le format de fichier 23andMe est actuellement le format le plus populaire pour les données génomiques personnelles. Ainsi, la plupart des outils axés sur le consommateur prennent des fichiers au format 23andMe en entrée. Pour utiliser ces outils, vous pouvez convertir votre fichier VCF en un fichier au format 23andMe. Notez que les fichiers Nebula Explore VCF contiennent beaucoup plus d’informations que les fichiers 23andMe. En convertissant au format 23andMe, nous supprimons beaucoup d’informations pour des raisons de compatibilité avec les outils couramment utilisés.

1. Télécharger VCF-à-23andMe . Les deux scripts de ce répertoire nécessitent Python 3.

2. Tout d’abord, exécutez le script data_to_db.py en utilisant votre fichier VCF comme entrée. Cela génère le fichier genome.db:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. Exécutez ensuite le script db_to_23.py en utilisant le fichier genome.db comme entrée. Cela produit un fichier au format 23andMe:

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

Calcul du pourcentage d’ADN de Néandertal

Les Néandertaliens sont une espèce humaine éteinte, qui vivait en Eurasie jusqu’à il y a 40000 ans. Car Les Néandertaliens se sont croisés avec les humains modernes , la plupart des gens ont un peu d’ADN de Néandertal dans leur génome. Vous pouvez utiliser l’Ancienne Calculatrice pour savoir quelle part de votre génome est partagée avec les Néandertaliens et d’autres anciens parents humains.

  1. Téléchargez et lancez Calculatrice ancienne (Figure 5). Cet outil est disponible uniquement pour les PC Windows.
  2. Sélectionnez un ancien échantillon d’ADN avec lequel vous souhaitez faire correspondre vos données génétiques (1). Par exemple, sélectionnez «Altai Neandertal».
  3. Cliquez sur «BROWSE» et sélectionnez vos données génomiques au format 23andMe que vous avez généré à partir de votre fichier VCF. Le calcul ne prend que quelques secondes.
Calculatrice ancienne pour trouver l'ADN de Néandertal dans un génome humain
Figure 5. Calculatrice ancienne.

Plus de ressources pour l’exploration de données