Cómo comenzar a explorar sus datos genómicos sin procesar

Secuenciación de próxima generación

El ADN es una molécula que codifica el modelo de cada organismo vivo. El ADN es una molécula en forma de cadena de longitud variable compuesta por cuatro bloques de construcción, comúnmente llamados letras. Las cuatro letras del ADN son adenina (A), timina (T), citosina (C) y guanina (G). Los métodos que determinan la secuencia de letras de las moléculas de ADN se denominan secuenciación. La secuenciación de próxima generación (NGS) es una tecnología de secuenciación de ADN de alto rendimiento que permite la lectura de miles de millones de moléculas de ADN en paralelo. Esto genera miles de millones de lecturas de secuencia corta (~ 150 letras) que se almacenan en archivos de texto en el Formato FASTQ .

Lanzamos Explorar nebulosa para crear una entrada asequible a la secuenciación personal del genoma completo. Nebula Explore es una secuenciación superficial del genoma completo con una cobertura promedio de 0.4x por base que da como resultado ~ 1.3 mil millones de bases secuenciadas de ~ 6.4 mil millones de bases en el genoma humano. En comparación, la mayoría de las otras empresas de genómica personal, incluidas 23andMe y AncestryDNA, usan genotipado basado en microarrays que lee el genoma humano en solo ~ 500.000 posiciones.

Secuenciación del procesamiento de datos

La secuencia continua de ADN de un genoma humano se puede reconstruir computacionalmente utilizando superposiciones entre lecturas de secuenciación cortas. La reconstrucción de un genoma se puede facilitar si un genoma de referencia está disponible para que las lecturas de secuenciación se puedan alinear. La utilización de genomas de referencia es posible porque los representantes de una especie son genéticamente muy similares; por ejemplo, dos secuencias del genoma humano cualesquiera son casi idénticas. Por ejemplo, para Nebula Explore usamos el genoma de referencia humano GRCh37 (hg19). Por este medio, se utiliza una herramienta de alineación de secuencias para mapear lecturas cortas almacenadas en un archivo FASTQ al genoma de referencia GRCh37 (Figura 1). Esto genera una Mapa de alineación binaria (BAM) archivo y un archivo BAI (índice de alineación binaria) asociado. Los archivos FASTQ generalmente se descartan después de generar archivos BAM, ya que no se pierde información durante el proceso de alineación. Los archivos BAM se pueden volver a transformar fácilmente en archivos FASTQ, por ejemplo, utilizando samtools :

samtools fastq input.bam> output.fastq

Llamada de variante de ADN
Figura 1. Reconstrucciones de un genoma alineando lecturas cortas con un genoma de referencia.

Una vez que las lecturas de secuenciación se alinean con un genoma de referencia, se pueden identificar las diferencias entre el genoma secuenciado y el genoma de referencia. Este proceso se denomina “llamada de variante” y produce archivos en el formato de llamada de variante (VCF). Por la presente, imputamos la parte no secuenciada del genoma utilizando un conjunto de genomas de referencia que fue generado por el Proyecto 1000 Genomas . Esto produce una precisión promedio de ~ 99% por base en todo el genoma, que es lo suficientemente alta para predecir ancestros y rasgos. Para los usuarios que deseen obtener información sobre los riesgos de enfermedad, el estado de portador y la farmacogenómica, pronto lanzaremos nuestra secuenciación del genoma completo de grado clínico que logra una mayor precisión al secuenciar cada posición en el genoma en promedio 30 veces.

Explorando datos genómicos

La primera iteración de los informes de Nebula Explore incluye la predicción de ascendencia y 27 rasgos diferentes. Sin embargo, es importante comprender que la secuenciación del genoma personal es el comienzo de un viaje que proporcionará continuamente más conocimientos, especialmente a medida que avanza la ciencia y se realizan nuevos descubrimientos. Por lo tanto, agregaremos regularmente nuevos rasgos a nuestros informes y aumentaremos continuamente la granularidad de nuestras predicciones de ascendencia.

También les damos a nuestros usuarios acceso a sus datos genómicos (archivos BAM, BAI y VCF) y los invitamos a explorar sus datos ellos mismos. Dado que la carga de datos genómicos personales en sitios web de terceros presenta riesgos de privacidad, queremos presentar algunas herramientas que se pueden usar localmente en computadoras personales.

Ver archivos BAM con un navegador de genoma

Los navegadores de genoma se utilizan para navegar a través de lecturas que se alinean con una secuencia de genoma de referencia y se almacenan en un archivo BAM. Puedes probar el Visor de genoma interactivo (IGV) .

  1. Descarga IGV para su sistema operativo e instálelo.
  2. Descargue sus archivos BAM y BAI a través de su cuenta de Nebula Genomics.
  3. Abra IGV y establezca el genoma de referencia en hg19 (menú desplegable en la parte superior izquierda) y descárguelo para obtener un mejor rendimiento (Figura 2). Para hacer esto, vaya a la barra de menú y seleccione “Genomas” → “Cargar Genoma para el servidor…” → “Human hg19” y marque la casilla de “Descargar secuencia”.
  4. Arrastre y suelte su archivo BAM en IGV. Su archivo BAI debe estar en la misma carpeta que su archivo BAM.
  5. Vea sus lecturas de secuenciación alineadas con el genoma de referencia seleccionando cromosomas (1) o busque por nombres de genes (2) y luego haga zoom en la secuencia (3).
Visor de genoma interactivo
Figura. 2 Visor de genoma interactivo

Determinación del haplogrupo de ADNmt

Mitocondrias son orgánulos celulares que generan la mayor parte del suministro de energía química de las células. Las mitocondrias también tienen su propio genoma que las madres transmiten a sus hijos. Haplogrupos de ADN mitocondrial humano (ADNmt) representan los principales puntos de ramificación en el camino evolutivo del linaje femenino. Permite rastrear a los humanos modernos hasta sus orígenes en África y su posterior difusión por todo el mundo (Figura 3).

haplogrupos de ADNmt
Figura 3. haplogrupos de ADNmt en todo el mundo. Adaptado de FamilyTreeDNA.

Puede determinar su haplogrupo analizando las lecturas de ADNmt en su archivo BAM. Para ello, puede utilizar el kit de análisis BAM.

  1. Descargue y ejecute el Kit de análisis BAM . Esta herramienta solo está disponible para PC con Windows. ( Solución de problemas de Windows )
  2. Elija “M” para mtDNA (1) como se muestra en la Figura 4. Desmarque todas las demás casillas.
  3. Haga clic en “Examinar” (2) y seleccione su archivo BAM.
  4. Haga clic en Iniciar análisis. El procesamiento puede tardar hasta una hora.
  5. Abra el archivo MtDNA_Haplogroup.txt para encontrar su haplogrupo mtDNA.
Kit de análisis BAM
Figura 4. Determinación del haplogrupo de ADNmt con el kit de análisis BAM.

Conversión de archivos VCF a archivos 23andMe

El formato de archivo 23andMe es actualmente el formato más popular para datos genómicos personales. Por lo tanto, la mayoría de las herramientas centradas en el consumidor toman archivos en formato 23andMe como entrada. Para utilizar estas herramientas, puede convertir su archivo VCF en un archivo en formato 23andMe. Tenga en cuenta que los archivos VCF de Nebula Explore contienen mucha más información que los archivos 23andMe. Al convertir al formato 23andMe, estamos descartando mucha información en aras de la compatibilidad con las herramientas de uso común.

1. Descarga VCF-to-23andMe . Los dos scripts de este directorio requieren Python 3.

2. Primero, ejecute el script data_to_db.py usando su archivo VCF como entrada. Esto genera el archivo genome.db:

> python3 data_to_db.py input.vcf.gz vcf genome.db

3. Luego ejecute el script db_to_23.py utilizando el archivo genome.db como entrada. Esto produce un archivo en formato 23andMe:

> python3 db_to_23.py genome.db blank_v3.txt 23andMe.txt

Cálculo del porcentaje de ADN neandertal

Los neandertales son una especie extinta de humanos que vivieron en Eurasia hasta hace 40.000 años. Porque Los neandertales se han cruzado con los humanos modernos , la mayoría de las personas tienen algo de ADN neandertal en su genoma. Puede usar la Calculadora antigua para averiguar cuánto de su genoma se comparte con los neandertales y otros parientes humanos antiguos.

  1. Descarga y lanza Calculadora antigua (Figura 5). Esta herramienta solo está disponible para PC con Windows.
  2. Seleccione una muestra de ADN antiguo con la que desee comparar sus datos genéticos (1). Por ejemplo, seleccione “Altai Neanderthal”.
  3. Haga clic en “BROWSE” y seleccione sus datos genómicos en el formato 23andMe que ha generado a partir de su archivo VCF. El cálculo toma solo unos segundos.
Calculadora antigua para encontrar ADN neandertal en un genoma humano
Figura 5. Calculadora antigua.

Más recursos para la exploración de datos