كيف تبدأ في استكشاف البيانات الجينومية الأولية الخاصة بك

تسلسل الجيل التالي

الحمض النووي هو جزيء يشفر مخطط كل كائن حي. الحمض النووي عبارة عن جزيء يشبه السلسلة بطول متغير يتكون من أربع كتل بناء ، تسمى عادةً الحروف. الأحرف الأربعة للحمض النووي هي الأدينين (A) ، الثايمين (T) ، السيتوزين (C) ، والجوانين (G). تسمى الطرق التي تحدد تسلسل حروف جزيئات الحمض النووي بالتسلسل. تسلسل الجيل التالي (NGS) عبارة عن تقنية تسلسل DNA عالية الإنتاجية تتيح قراءة مليارات جزيئات الحمض النووي بالتوازي. ينتج عن هذا المليارات من قراءات التسلسل القصيرة (حوالي 150 حرفًا) المخزنة في ملفات نصية في ملف تنسيق FASTQ .

أطلقنا استكشاف السديم لإنشاء إدخال ميسور التكلفة لتسلسل الجينوم الشخصي الكامل. Nebula Explore عبارة عن تسلسل جيني كامل ضحل بتغطية متوسطة تبلغ 0.4x لكل قاعدة ينتج عنها ما يقرب من 1.3 مليار قاعدة متسلسلة من ~ 6.4 مليار قاعدة في الجينوم البشري. في المقابل ، تستخدم معظم شركات الجينوم الشخصية الأخرى ، بما في ذلك 23andMe و AncestryDNA ، التنميط الجيني القائم على المصفوفات الدقيقة الذي يقرأ الجينوم البشري في 500000 موقع فقط.

تسلسل معالجة البيانات

يمكن إعادة بناء تسلسل الحمض النووي المستمر للجينوم البشري حسابيًا باستخدام التداخل بين قراءات التسلسل القصيرة. يمكن تسهيل إعادة بناء الجينوم إذا أ الجينوم المرجعي متاح التي يمكن أن تتم محاذاة التسلسل يقرأ. استخدام الجينوم المرجعي ممكن لأن ممثلي الأنواع متشابهون وراثيًا للغاية – على سبيل المثال ، أي تسلسل جينوم بشري متطابق تقريبًا. على سبيل المثال ، بالنسبة إلى Nebula Explore ، نستخدم الجينوم المرجعي البشري GRCh37 (hg19). بموجب هذا يتم استخدام أداة محاذاة التسلسل لتعيين القراءات القصيرة المخزنة في ملف FASTQ إلى الجينوم المرجعي GRCh37 (الشكل 1). هذا يولد أ خريطة المحاذاة الثنائية (BAM) ملف وملف BAI (فهرس ثنائي المحاذاة) مرتبط. عادةً ما يتم تجاهل ملفات FASTQ بعد إنشاء ملفات BAM نظرًا لعدم فقد أي معلومات أثناء عملية المحاذاة. يمكن تحويل ملفات BAM بسهولة إلى ملفات FASTQ ، على سبيل المثال باستخدام ملفات سامتولس :

samtools fastq المدخلات. bam> الإخراج

استدعاء متغير الحمض النووي
شكل 1. إعادة بناء الجينوم بمحاذاة القراءات القصيرة لجينوم مرجعي.

بعد محاذاة قراءات التسلسل مع الجينوم المرجعي ، يمكن تحديد الاختلافات بين الجينوم المتسلسل والجينوم المرجعي. تسمى هذه العملية “استدعاء متغير” وتنتج ملفات بتنسيق Variant Call Format (VCF). بموجب هذا ننسب الجزء غير المتسلسل من الجينوم باستخدام مجموعة من الجينومات المرجعية التي تم إنشاؤها بواسطة مشروع 1000 جينوم . ينتج عن ذلك دقة متوسطة تصل إلى 99٪ تقريبًا لكل قاعدة عبر الجينوم بأكمله ، وهو مرتفع بدرجة كافية للتنبؤ بالأصل والسمات. بالنسبة للمستخدمين الذين يرغبون في اكتساب نظرة ثاقبة حول مخاطر الأمراض وحالة الناقل وعلم الجينوم الدوائي ، سنطلق قريبًا تسلسل الجينوم الكامل من الدرجة السريرية الذي يحقق دقة أعلى من خلال ترتيب كل موضع في الجينوم بمعدل 30 مرة.

استكشاف البيانات الجينومية

يتضمن التكرار الأول لتقارير Nebula Explore التنبؤ بالأصول و 27 سمة مختلفة. ومع ذلك ، من المهم أن نفهم أن تسلسل الجينوم الشخصي هو بداية رحلة ستؤدي باستمرار إلى مزيد من التبصر ، خاصة مع تقدم العلم والاكتشافات الجديدة. وبالتالي ، سنضيف سمات جديدة بانتظام إلى تقاريرنا بالإضافة إلى زيادة دقة تنبؤات أسلافنا باستمرار.

كما نمنح مستخدمينا إمكانية الوصول إلى بياناتهم الجينية (ملفات BAM و BAI و VCF) وندعوهم لاستكشاف بياناتهم بأنفسهم. نظرًا لأن تحميل بيانات الجينوم الشخصية إلى مواقع ويب تابعة لجهات خارجية يمثل مخاطر على الخصوصية ، فنحن نريد تقديم بعض الأدوات التي يمكن استخدامها محليًا على أجهزة الكمبيوتر الشخصية.

عرض ملفات BAM باستخدام مستعرض الجينوم

تُستخدم متصفحات الجينوم للتصفح خلال القراءات المتوافقة مع تسلسل الجينوم المرجعي وتخزينها في ملف BAM. يمكنك تجربة عارض الجينوم التفاعلي (IGV) .

  1. تحميل IGV لنظام التشغيل الخاص بك وتثبيته.
  2. قم بتنزيل ملفات BAM و BAI من خلال حساب Nebula Genomics الخاص بك.
  3. افتح IGV وقم بتعيين الجينوم المرجعي على hg19 (القائمة المنسدلة في أعلى اليسار) وقم بتنزيله للحصول على أداء أفضل (الشكل 2). للقيام بذلك ، انتقل إلى شريط القائمة وحدد “الجينوم” → “تحميل الجينوم للخادم …” → “الإنسان hg19” وحدد مربع “تسلسل التنزيل”.
  4. قم بسحب ملف BAM وإفلاته في IGV. يجب أن يكون ملف BAI الخاص بك في نفس المجلد مثل ملف BAM الخاص بك.
  5. اعرض تسلسل القراءة الخاص بك بمحاذاة الجينوم المرجعي عن طريق تحديد الكروموسومات (1) أو البحث عن طريق أسماء الجينات (2) ثم تكبير التسلسل (3).
عارض الجينوم التفاعلي
شكل. 2 عارض الجينوم التفاعلي

تحديد mtDNA هابلوغروب

الميتوكوندريا هي عضيات خلوية تولد معظم إمداد الخلية بالطاقة الكيميائية. تمتلك الميتوكوندريا أيضًا جينومها الخاص الذي تنقله الأمهات إلى أطفالهن. مجموعات هابلوغروبس DNA الميتوكوندريا البشرية (mtDNA) تمثل نقاط التفرع الرئيسية في المسار التطوري لسلالة الإناث. إنه يمكّن من تتبع البشر المعاصرين إلى أصولهم في إفريقيا والانتشار اللاحق حول العالم (الشكل 3).

مجموعات هابلو متدنا
الشكل 3. مجموعات هابلوغروبس mtDNA حول العالم. مقتبس من FamilyTreeDNA.

يمكنك تحديد هابلوغروب الخاص بك عن طريق تحليل قراءة mtDNA في ملف BAM الخاص بك. لهذا ، يمكنك استخدام مجموعة تحليل BAM.

  1. قم بتنزيل وتشغيل ملف طقم تحليل BAM . هذه الأداة متاحة لأجهزة الكمبيوتر التي تعمل بنظام Windows فقط. ( استكشاف أخطاء Windows وإصلاحها )
  2. اختر “M” لـ mtDNA (1) كما هو موضح في الشكل 4. قم بإلغاء تحديد جميع المربعات الأخرى.
  3. انقر فوق “استعراض” (2) وحدد ملف BAM الخاص بك.
  4. انقر فوق بدء التحليل. يمكن أن تستغرق المعالجة ما يصل إلى ساعة.
  5. افتح ملف MtDNA_Haplogroup.txt للعثور على مجموعة هابلوغروب mtDNA الخاصة بك.
طقم تحليل BAM
الشكل 4. تحديد مجموعة هابلوغروب mtDNA باستخدام مجموعة تحليل BAM.

تحويل ملفات VCF إلى ملفات 23andMe

يعد تنسيق ملف 23andMe حاليًا أكثر التنسيقات شيوعًا لبيانات الجينوم الشخصية. وبالتالي ، فإن معظم الأدوات التي تركز على المستهلك تأخذ ملفات بتنسيق 23andMe كمدخلات. لاستخدام هذه الأدوات ، يمكنك تحويل ملف VCF إلى ملف بتنسيق 23andMe. لاحظ أن ملفات Nebula Explore VCF تحتوي على معلومات أكثر بكثير من ملفات 23andMe. من خلال التحويل إلى تنسيق 23andMe ، نتجاهل الكثير من المعلومات من أجل التوافق مع الأدوات شائعة الاستخدام.

1. تنزيل VCF إلى 23andMe . يتطلب البرنامجان الموجودان في هذا الدليل لغة Python 3.

2. أولاً ، قم بتشغيل البرنامج النصي data_to_db.py باستخدام ملف VCF كمدخل. يؤدي هذا إلى إنشاء ملف genome.db:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. ثم قم بتشغيل البرنامج النصي db_to_23.py باستخدام ملف genome.db كمدخل. ينتج عن ذلك ملف بتنسيق 23andMe:

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

حساب نسبة الحمض النووي لإنسان نياندرتال

إنسان نياندرتال هو نوع منقرض من البشر ، عاش في أوراسيا حتى 40000 سنة مضت. لان لقد تزاوج إنسان نياندرتال مع الإنسان الحديث ، معظم الناس لديهم بعض الحمض النووي لإنسان نياندرتال في جينومهم. يمكنك استخدام الآلة الحاسبة القديمة لمعرفة مقدار الجينوم الذي تتم مشاركته مع إنسان نياندرتال والأقارب البشريين القدامى الآخرين.

  1. التنزيل والتشغيل آلة حاسبة قديمة (الشكل 5). هذه الأداة متاحة لأجهزة الكمبيوتر التي تعمل بنظام Windows فقط.
  2. حدد عينة DNA قديمة تريد مطابقة بياناتك الوراثية مقابلها (1). على سبيل المثال ، حدد “Altai Neanderthal”.
  3. انقر فوق “استعراض” وحدد بيانات الجينوم الخاصة بك في تنسيق 23andMe الذي أنشأته من ملف VCF الخاص بك. يستغرق الحساب بضع ثوانٍ فقط.
آلة حاسبة قديمة للعثور على الحمض النووي لإنسان نياندرتال في جينوم بشري
الشكل 5. آلة حاسبة قديمة.

المزيد من الموارد لاستكشاف البيانات