生のゲノムデータの探索を開始する方法

次世代シーケンシング

DNAは、すべての生物の青写真をコード化する分子です。 DNAは、一般に文字と呼ばれる4つの構成要素で構成される可変長の鎖状分子です。 DNAの4文字は、アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)です。 DNA分子の文字配列を決定する方法は、配列決定と呼ばれます。 次世代シーケンシング(NGS)は、数十億のDNA分子を並行して読み取ることを可能にするハイスループットDNAシーケンシングテクノロジーです。 これにより、数十億の短いシーケンス読み取り(〜150文字)が生成され、テキストファイルに保存されます。 FASTQ形式

ローンチしました星雲探検個人の全ゲノムシーケンスへの手頃なエントリを作成します。 Nebula Exploreは、塩基あたり平均0.4倍のカバレッジを持つ浅い全ゲノムシーケンスであり、ヒトゲノムの約64億塩基のうち、約13億のシーケンスされた塩基をもたらします。 それに比べて、23andMeやAncestryDNAを含む他のほとんどのパーソナルゲノミクス企業は、マイクロアレイベースのジェノタイピングを使用しており、ヒトゲノムを約500,000の位置で読み取るだけです。

シーケンスデータ処理

ヒトゲノムの連続DNA配列は、短いシーケンシングリード間のオーバーラップを使用して計算で再構築できます。 ゲノムの再構築は、次の場合に容易になります。リファレンスゲノムシーケンシングリードをアラインメントできるが利用可能です。 種の代表は遺伝的に非常に類似しているため、リファレンスゲノムの利用が可能です。たとえば、2つのヒトゲノム配列はほぼ同一です。 たとえば、Nebula Exploreには、ヒトリファレンスゲノムGRCh37(hg19)を使用します。 これにより、配列アラインメントツールを使用して、FASTQファイルに保存されている短いリードをGRCh37リファレンスゲノムにマッピングします(図1)。 これにより、バイナリアライメントマップ(BAM)ファイルおよび関連するBAI(Binary Alignment Index)ファイル。 FASTQファイルは通常、アライメントプロセス中に情報が失われないため、BAMファイルの生成後に破棄されます。 BAMファイルは、たとえばを使用して、簡単にFASTQファイルに戻すことができます。 samtools

samtools fastq input.bam> output.fastq

DNAバリアントの呼び出し
図1。 短いリードをリファレンスゲノムにアラインメントすることによるゲノムの再構築。

シーケンシングリードをリファレンスゲノムにアラインメントした後、シーケンシングされたゲノムとリファレンスゲノムの違いを特定できます。 このプロセスは「バリアント呼び出し」と呼ばれ、バリアント呼び出し形式(VCF)でファイルを生成します。 これにより、によって生成されたリファレンスゲノムのセットを使用して、ゲノムのシーケンスされていない部分を代入します。 1000人ゲノムプロジェクト。 これにより、ゲノム全体で1塩基あたり約99%の平均精度が得られます。これは、祖先と形質を予測するのに十分な精度です。 病気のリスク、保因者の状態、薬理ゲノミクスについての洞察を得たいユーザーのために、ゲノムの各位置を平均30回シーケンスすることで、より高い精度を実現する臨床グレードの全ゲノムシーケンスを間もなく開始します。

ゲノムデータの探索

Nebula Exploreレポートの最初の反復には、祖先と27の異なる特性の予測が含まれます。 ただし、パーソナルゲノムシーケンシングは、特に科学が進歩し、新しい発見がなされたときに、より多くの洞察を継続的に生み出す旅の始まりであることを理解することが重要です。 したがって、レポートに新しい特性を定期的に追加するとともに、祖先予測の粒度を継続的に向上させます。

また、ユーザーがゲノムデータ(BAM、BAI、VCFファイル)にアクセスできるようにし、データを自分で探索するように招待します。 個人のゲノムデータをサードパーティのWebサイトにアップロードするとプライバシーのリスクが生じるため、パーソナルコンピューターでローカルに使用できるツールをいくつか紹介します。

ゲノムブラウザでのBAMファイルの表示

ゲノムブラウザは、リファレンスゲノム配列にアラインされ、BAMファイルに保存されているリードを閲覧するために使用されます。 あなたは試してみることができますインタラクティブゲノムビューアー(IGV)

  1. IGVをダウンロードご使用のオペレーティングシステムに合わせてインストールします。
  2. NebulaGenomicsアカウントからBAMファイルとBAIファイルをダウンロードします。
  3. IGVを開き、リファレンスゲノムをhg19(左上のドロップダウン)に設定し、ダウンロードしてパフォーマンスを向上させます(図2)。 これを行うには、メニューバーに移動し、「Genomes」→「Load Genome for Server…」→「Humanhg19」を選択し、「DownloadSequence」のチェックボックスをオンにします。
  4. BAMファイルをIGVにドラッグアンドドロップします。 BAIファイルは、BAMファイルと同じフォルダーにある必要があります。
  5. 染色体を選択するか(1)、遺伝子名で検索して(2)、シーケンスを拡大して(3)、リファレンスゲノムにアラインされたシーケンスリードを表示します。
インタラクティブゲノムビューアー
図。 2インタラクティブゲノムビューアー

mtDNAハプログループの決定

ミトコンドリア細胞の化学エネルギー供給のほとんどを生成する細胞小器官です。 ミトコンドリアには、母親から子供に受け継がれる独自のゲノムもあります。ヒトミトコンドリアDNA(mtDNA)ハプログループ女性の血統の進化の道の主要な分岐点を表します。 これにより、現代人をアフリカでの起源にまでさかのぼり、その後世界中に広めることができます(図3)。

mtDNAハプログループ
図3。 世界中のmtDNAハプログループ。 FamilyTreeDNAから適応。

BAMファイルのmtDNA読み取りを分析することにより、ハプログループを決定できます。 このために、BAM分析キットを使用できます。

  1. ダウンロードして起動しますBAM分析キット。このツールは、WindowsPCでのみ使用できます。 (( Windowsのトラブルシューティング
  2. 図4に示すように、mtDNA(1)に「M」を選択します。 他のすべてのボックスのチェックを外します。
  3. 「参照」(2)をクリックして、BAMファイルを選択します。
  4. [分析の開始]をクリックします。 処理には最大1時間かかる場合があります。
  5. MtDNA_Haplogroup.txtファイルを開いて、mtDNAハプログループを見つけます。
BAM分析キット
図4。 BAM分析キットを使用したmtDNAハプログループの決定。

VCFファイルを23andMeファイルに変換する

23andMeファイル形式は、現在、個人のゲノムデータで最も一般的な形式です。 したがって、ほとんどの消費者向けツールは、23andMe形式のファイルを入力として受け取ります。 これらのツールを使用するには、VCFファイルを23andMe形式のファイルに変換できます。 Nebula Explore VCFファイルには、23andMeファイルよりもはるかに多くの情報が含まれていることに注意してください。 23andMe形式に変換することにより、一般的に使用されるツールとの互換性のために多くの情報を破棄しています。

1.ダウンロードVCF-to-23andMe 。 このディレクトリの2つのスクリプトには、Python3が必要です。

2.まず、VCFファイルを入力として使用してdata_to_db.pyスクリプトを実行します。 これにより、genome.dbファイルが生成されます。

> python3 data_to_db.py input.vcf.gz vcf Genome.db

3.次に、genome.dbファイルを入力として使用してdb_to_23.pyスクリプトを実行します。 これにより、23andMe形式のファイルが生成されます。

> python3 db_to_23.py Genome.db blank_v3.txt 23andMe.txt

ネアンデルタール人のDNAパーセンテージの計算

ネアンデルタール人は、4万年前までユーラシア大陸に住んでいた絶滅した人間の種です。 なぜならネアンデルタール人は現代人と交配しました、ほとんどの人はゲノムにネアンデルタール人のDNAを持っています。 Ancient Calculatorを使用して、ネアンデルタール人や他の古代の人間の親戚と共有されているゲノムの量を調べることができます。

  1. ダウンロードして起動古代の電卓(図5)。 このツールは、WindowsPCでのみ使用できます。
  2. 遺伝子データを照合する古代DNAサンプルを選択します(1)。 たとえば、「アルタイネアンデルタール人」を選択します。
  3. 「参照」をクリックして、VCFファイルから生成した23andMe形式のゲノムデータを選択します。 計算には数秒かかります。
ヒトゲノムでネアンデルタール人のDNAを見つける古代の計算機
図5。 古代の電卓。

データ探索のためのより多くのリソース