Para el ejercicio de caracterización de amplicones de 16S, tenemos un set de datos obtenidos de heces de rata que fueron tomadas a diferentes días post destete, algunas pocos días (early) y otras mucho después (late). Estos datos son los usados por el Dr. Patrick Schloss para su Standard Operating Procedure (SOP), publicado por Kozich et al. 2013.
El archivo a usar se llama MiSeqSOP.tar.gz (34 Mb), ya incluye un archivo de metadatos (metadata.tsv) y otro con la información del experimento (data.info), las secuencias se encuentran en una subcarpeta /seqs.
Se puede descargar directamente de Google Drive dando click a la siguiente liga o bien desde Figshare. Ya dentro de la imagen virtual se puede ejecutar un script para descargar diversos set de datos, abrir una terminal y ejecutar:
download_data
Selecionar el set de datos a descargar, claro hay que tener una conexión a internet.
La tabla de metadatos tiene un formato delimitado por tabuladores:
sample dpw time
F3D1 1 Early
F3D141 141 Late
F3D142 142 Late
...
Lo primero que tenemos que hacer es limpiar y ensamblas las secuencias, para esto usaremos el pipeline del laboratorio mg_pipeline, pero antes de eso hay que descomprimirlo:
$ tar xzf MiSeqSOP.tar.gz
lo que creará una nueva carpeta llamada MiSeqSOP con una subcarpeta con las secuencias, información del estudio y una tabla de metadatos. Para limpiar las secuencias, tenemos que entrar a la carpeta seqs y ahí ejecutar el script pair-end_cleaner:
$ cd MiSeqSOP/seqs
$ pair-end_cleaner
Nos saldrá un menú con la siguiente información:
--- pair-end_cleaner v1.0.1 -------------------------
Script to unzip, clean, assemble, convert, and rename
Illumina pair-end fastq files in all 19 subdirectories.
Select a region for
16S
1 V3
2 V4
3 V3-V4
18S
4 V9
x exit
Debemos elegir la región del gen que se secuenció, para este ejemplo la opción 2, region V4 del gen 16S.
El script limpiará las secuencias para eliminar las de baja calidad, inferior a Q20, quitar las bases indefinidas n y eliminar las secuencias cortas con cutadapt. Posteriormente ensamblará las secuencias pareadas con PEAR en una solo consenso y la convertirá de fastq a fasta. Creará un archivo por para cada muestra con terminación .fna en una nueva carpeta. Esto puede tomar un par de minutos.
A las secuencias limpias y ensambladas habrá que eliminarle las secuencias quiméricas generadas probablemente durante la PCR, para esto tenemos otro script basado en VSEARCH que utiliza un base de datos para este fin.
Hay que entrar a la carpeta generada en el paso anterior y que empieza con assembled.fecha_hora y ejecutar el script:
$ chimera_detector *.fna
Después de varios minutos (15 a 20), se creará una nueva subcarpeta llamada chimera_detector.fecha_hora con las secuencias libre de quimeras con terminación *.fasta
Por último paso, tenemos que clasificar las secuencias para asignarles una taxonomía, esto lo haremos con el script mg_classifier:
$ mg_classifier *.fasta
Nos saldrá un menu para seleccionar la base de datos a usar
Select a database:
16S_rRNA
1 EzBioCloud-LGM 2023
2 SILVA v132
18S_rRNA
3 PR2
x exit
En la imagen virtual MGlinux18.2, por cuestiones de espacio, no tenemos todas las bases de datos, elijamos la número 1. Después de pocos minutos, tendremos una nueva subcarpeta con los resultados. El documento principal es una tabla de OTUs en la que está cuantas secuencias de cada OTU (líneas) se asignaron a cada muestra (columnas) analizada.
Con RStudio podemos visualizar los resultados fácilmente siguiendo las indicaciones de este link