So beginnen Sie mit der Untersuchung Ihrer genomischen Rohdaten

Sequenzierung der nächsten Generation

DNA ist ein Molekül, das die Blaupause jedes lebenden Organismus codiert. DNA ist ein kettenartiges Molekül variabler Länge, das aus vier Bausteinen besteht, die üblicherweise als Buchstaben bezeichnet werden. Die vier Buchstaben der DNA sind Adenin (A), Thymin (T), Cytosin (C) und Guanin (G). Methoden, die die Buchstabenfolge von DNA-Molekülen bestimmen, werden als Sequenzierung bezeichnet. Next-Generation-Sequencing (NGS) ist eine DNA-Sequenzierungstechnologie mit hohem Durchsatz, mit der Milliarden von DNA-Molekülen parallel gelesen werden können. Dies erzeugt Milliarden von kurzen Sequenzierungslesungen (~ 150 Buchstaben), die in Textdateien in der gespeichert sind FASTQ-Format .

Wir haben gestartet Nebel erkunden einen erschwinglichen Zugang zur persönlichen Sequenzierung des gesamten Genoms zu schaffen. Nebula Explore ist eine flache Gesamtgenomsequenzierung mit einer durchschnittlichen Abdeckung von 0,4x pro Base, die zu ~ 1,3 Milliarden sequenzierten Basen von ~ 6,4 Milliarden Basen im menschlichen Genom führt. Im Vergleich dazu verwenden die meisten anderen Unternehmen für persönliche Genomik, darunter 23andMe und AncestryDNA, eine Microarray-basierte Genotypisierung, die das menschliche Genom an nur ~ 500.000 Positionen liest.

Sequenzieren der Datenverarbeitung

Die kontinuierliche DNA-Sequenz eines menschlichen Genoms kann rechnerisch rekonstruiert werden, indem Überlappungen zwischen kurzen Sequenzierungslesungen verwendet werden. Die Rekonstruktion eines Genoms kann erleichtert werden, wenn a Referenzgenom ist verfügbar, an dem die Sequenzierungslesungen ausgerichtet werden können. Die Verwendung von Referenzgenomen ist möglich, weil Vertreter einer Art genetisch sehr ähnlich sind – zum Beispiel sind zwei beliebige menschliche Genomsequenzen nahezu identisch. Zum Beispiel verwenden wir für Nebula Explore das humane Referenzgenom GRCh37 (hg19). Hierbei wird ein Sequenzausrichtungswerkzeug verwendet, um kurze Lesevorgänge, die in einer FASTQ-Datei gespeichert sind, auf das GRCh37-Referenzgenom abzubilden (1). Dies erzeugt eine Binäre Ausrichtungskarte (BAM) Datei und eine zugehörige BAI-Datei (Binary Alignment Index). FASTQ-Dateien werden normalerweise nach dem Generieren von BAM-Dateien verworfen, da während des Ausrichtungsprozesses keine Informationen verloren gehen. BAM-Dateien können beispielsweise mithilfe von einfach wieder in FASTQ-Dateien umgewandelt werden Samtools ::

samtools fastq input.bam> output.fastq

DNA-Variantenaufruf
Abbildung 1. Rekonstruktionen eines Genoms durch Ausrichtung kurzer Lesevorgänge auf ein Referenzgenom.

Nachdem die Sequenzierungslesungen auf ein Referenzgenom ausgerichtet sind, können die Unterschiede zwischen dem sequenzierten Genom und dem Referenzgenom identifiziert werden. Dieser Vorgang wird als „Variantenaufruf“ bezeichnet und erzeugt Dateien im Variantenaufrufformat (VCF). Hiermit unterstellen wir den nicht sequenzierten Teil des Genoms unter Verwendung eines Satzes von Referenzgenomen, die von der generiert wurden 1000-Genom-Projekt . Dies ergibt eine durchschnittliche Genauigkeit von ~ 99% pro Base über das gesamte Genom, was für die Vorhersage von Abstammung und Merkmalen ausreichend hoch ist. Für Benutzer, die einen Einblick in Krankheitsrisiken, Trägerstatus und Pharmakogenomik erhalten möchten, werden wir in Kürze unsere klinische Sequenzierung des gesamten Genoms einführen, die eine höhere Genauigkeit erzielt, indem jede Position im Genom durchschnittlich 30 Mal sequenziert wird.

Erforschung genomischer Daten

Die erste Iteration der Nebula Explore-Berichterstattung umfasst die Vorhersage der Abstammung und 27 verschiedene Merkmale. Es ist jedoch wichtig zu verstehen, dass die Sequenzierung des persönlichen Genoms der Beginn einer Reise ist, die kontinuierlich mehr Erkenntnisse liefert, insbesondere wenn die Wissenschaft Fortschritte macht und neue Entdeckungen gemacht werden. Daher werden wir unseren Berichten regelmäßig neue Merkmale hinzufügen und die Granularität unserer Ahnenvorhersagen kontinuierlich verbessern.

Wir geben unseren Benutzern auch Zugriff auf ihre Genomdaten (BAM-, BAI- und VCF-Dateien) und laden sie ein, ihre Daten selbst zu untersuchen. Da das Hochladen persönlicher Genomdaten auf Websites von Drittanbietern ein Datenschutzrisiko darstellt, möchten wir einige Tools vorstellen, die lokal auf PCs verwendet werden können.

Anzeigen von BAM-Dateien mit einem Genombrowser

Genombrowser werden zum Durchsuchen von Lesevorgängen verwendet, die an einer Referenzgenomsequenz ausgerichtet und in einer BAM-Datei gespeichert sind. Sie können das ausprobieren Interaktiver Genom-Viewer (IGV) .

  1. Laden Sie IGV herunter für Ihr Betriebssystem und installieren Sie es.
  2. Laden Sie Ihre BAM- und BAI-Dateien über Ihr Nebula Genomics-Konto herunter.
  3. Öffnen Sie IGV, setzen Sie das Referenzgenom auf hg19 (Dropdown oben links) und laden Sie es herunter, um eine bessere Leistung zu erzielen (Abbildung 2). Gehen Sie dazu in die Menüleiste und wählen Sie „Genome“ → „Genom für Server laden …“ → „Human hg19“ und aktivieren Sie das Kontrollkästchen für „Download Sequence“.
  4. Ziehen Sie Ihre BAM-Datei per Drag & Drop in IGV. Ihre BAI-Datei muss sich im selben Ordner wie Ihre BAM-Datei befinden.
  5. Zeigen Sie Ihre auf das Referenzgenom ausgerichteten Sequenzierungslesungen an, indem Sie Chromosomen (1) auswählen oder nach Gennamen (2) suchen und dann in die Sequenz (3) zoomen.
Interaktiver Genom-Viewer
Zahl. 2 Interaktiver Genom-Viewer

Bestimmung der mtDNA-Haplogruppe

Mitochondrien sind Zellorganellen, die den größten Teil der chemischen Energieversorgung der Zelle erzeugen. Mitochondrien haben auch ein eigenes Genom, das von Müttern an ihre Kinder weitergegeben wird. Haplogruppen der menschlichen mitochondrialen DNA (mtDNA) repräsentieren die Hauptverzweigungspunkte im Evolutionspfad der weiblichen Linie. Es ermöglicht die Rückverfolgung moderner Menschen bis zu ihren Ursprüngen in Afrika und die anschließende weltweite Verbreitung (Abbildung 3).

mtDNA-Haplogruppen
Figur 3. mtDNA-Haplogruppen rund um den Globus. Adaptiert von FamilyTreeDNA.

Sie können Ihre Haplogruppe bestimmen, indem Sie die mtDNA-Lesevorgänge in Ihrer BAM-Datei analysieren. Hierfür können Sie das BAM Analysis Kit verwenden.

  1. Laden Sie das herunter und starten Sie es BAM-Analysekit . Dieses Tool ist nur für Windows-PCs verfügbar. ( Windows-Fehlerbehebung )
  2. Wählen Sie „M“ für mtDNA (1), wie in Abbildung 4 gezeigt. Deaktivieren Sie alle anderen Kontrollkästchen.
  3. Klicken Sie auf „Durchsuchen“ (2) und wählen Sie Ihre BAM-Datei aus.
  4. Klicken Sie auf Analyse starten. Die Bearbeitung kann bis zu einer Stunde dauern.
  5. Öffnen Sie die Datei MtDNA_Haplogroup.txt, um Ihre mtDNA-Haplogruppe zu finden.
BAM-Analysekit
Figur 4. Bestimmung der mtDNA-Haplogruppe mit dem BAM Analysis Kit.

Konvertieren von VCF-Dateien in 23andMe-Dateien

Das 23andMe-Dateiformat ist derzeit das beliebteste Format für persönliche Genomdaten. Daher verwenden die meisten verbraucherorientierten Tools Dateien im 23andMe-Format als Eingabe. Um diese Tools zu verwenden, können Sie Ihre VCF-Datei in eine Datei im 23andMe-Format konvertieren. Beachten Sie, dass Nebula Explore VCF-Dateien viel mehr Informationen enthalten als 23andMe-Dateien. Durch die Konvertierung in das 23andMe-Format werden viele Informationen aus Gründen der Kompatibilität mit häufig verwendeten Tools verworfen.

1. Herunterladen VCF-to-23andMe . Die beiden Skripte in diesem Verzeichnis erfordern Python 3.

2. Führen Sie zunächst das Skript data_to_db.py mit Ihrer VCF-Datei als Eingabe aus. Dadurch wird die Datei Genom.db generiert:

> python3 data_to_db.py input.vcf.gz vcf Genom.db

3. Führen Sie dann das Skript db_to_23.py aus, wobei Sie die Datei Genom.db als Eingabe verwenden. Dies erzeugt eine Datei im 23andMe-Format:

> python3 db_to_23.py Genom.db blank_v3.txt 23andMe.txt

Berechnung des Neandertaler-DNA-Prozentsatzes

Neandertaler sind eine ausgestorbene Spezies von Menschen, die bis vor 40.000 Jahren in Eurasien lebten. weil Neandertaler haben sich mit modernen Menschen vermischt Die meisten Menschen haben etwas Neandertaler-DNA in ihrem Genom. Mit dem Alten Rechner können Sie herausfinden, wie viel von Ihrem Genom mit Neandertalern und anderen alten menschlichen Verwandten geteilt wird.

  1. Herunterladen und starten Alter Taschenrechner (Abbildung 5). Dieses Tool ist nur für Windows-PCs verfügbar.
  2. Wählen Sie eine alte DNA-Probe aus, mit der Sie Ihre genetischen Daten abgleichen möchten (1). Wählen Sie beispielsweise „Altai Neandertaler“.
  3. Klicken Sie auf „DURCHSUCHEN“ und wählen Sie Ihre Genomdaten im 23andMe-Format aus, das Sie aus Ihrer VCF-Datei generiert haben. Die Berechnung dauert nur wenige Sekunden.
Alter Taschenrechner, um Neandertaler-DNA in einem menschlichen Genom zu finden
Abbildung 5. Alter Taschenrechner.

Weitere Ressourcen für die Datenexploration

About The Author