Archivo y script necesarios para este ejercicio:
Dietas.tar.gz
multiple_fastq_merger-converter
focus2ampvis
Mediante el programa Focus podemos hacer una rápida clasificación taxonómica de muestras metagenómicas. La base de datos con la que se clasifica no es muy extensa y tampoco muy actualizada pero nos permite hacer una clasificación aceptable.
Usaremos el set de datos incluido en la imagen virtual MGlinux18.1 y que se encuentra en el archivo comprimido Dietas.tar.gz en Documents. Para descomprimirlo ejecutemos el comando:
$ cd Documents
$ tar xzf Dietas.tar.gz
Tendremos una carpeta llamada Dietas en Documents con cinco metagenomas en la subcarpeta seqs.
Primero debemos activar el ambiente conda en donde esta instalado Focus:
$ conda activate focus
Vayamos a la carpeta con las secuencias que están ambos archivos _R1 y _R2 en las cinco subcarpetas:
$ cd seqs
Focus puede trabajar con archivos fastq pero es mejor primero ensamblar ambos archivos y de una vez convertirlos a formato fasta para una más ágil clasificación. Esto lo podemos hacer con flash fácilmente, entremos a la carpeta de una muestra:
$ cd C08
$ flash -t 2 C08.R1.fastq C08.R1.fastq --output-prefix=C08
flash nos genera varios archivos, uno con las secuencias ensambladas (C08.extendedFrags.fastq) y otros dos con las secuencias no ensambladas (C08.notCombined_1.fastq C08.notCombined_2.fastq), como todas las secuencias son útiles, podemos unirlas en un solo archivo:
$ cat C08.extendedFrags.fastq C08.notCombined_1.fastq C08.notCombined_2.fastq > C08.fq
Ahora podemos convertir este archivo a formato fasta:
$ awk '{if(NR%4==1) {printf(">%s\n",substr($0,2));} else if(NR%4==2) print;}' C08.fq > C08.fasta
Borremos los archivo innecesarios ya:
$ rm C08.extendedFrags.fastq C08.histogram C08.notCombined_2.fastq C08.hist C08.notCombined_1.fastq
Ahora tenemos que hacer lo mismo para las otras muestras o bien, correr un script que tenemos para procesar todas las muestras automáticamente. Para esto tenemos que estar en la carpeta seqs y desde allí correr el script multiple_fastq_merger-converter
$ multiple_fastq_merger-converter
al final tendremos una nueva carpeta llamada fastas con todos los archivos en formato fasta de las cinco muestras.
Ahora si ya podemos correr focus utilizando la carpeta fastas como entrada:
(focus)$ focus -q fastas -o focus -t 2
Focus creará una nueva carpeta de salida (focus) con las clasificaciones a varios niveles taxonómicos, podemos abrir estas carpetas para ver los resultados y analizarlos con alguna hoja de cálculo (Excel, gnumeric, etc) o bien podemos convertir la hoja con todos los niveles taxonómicos para analizarla con ampvis2 en RStudio. Esto lo podemos ejecutar con un scritp fácilmente:
(focus)$ cd focus
(focus)$ focus2ampvis
Este script nos generará un archivo (OTU_table.tsv) con el formato adecuado para analizarlo con ampvis2, el proceso es igual que si fuera una análisis 16S, ver el proceso aquí.
También podemos clasificar funcionalmente con SUPERFOCUS, pero debido al tamaño de la base de datos y la intensidad computacional, no es factible hacerlo en una máquina virtual. Pero el proceso es igual a FOCUS y el resultado es una hoja tipo excel que podemos descargar de aquí.