Para clasificar las lecturas obtenidas en funciones, podemos usar varias opciones online, la más recomendable es MG-RAST, pero es extremadamente lenta (semanas) o bien en el servidor. En el servidor tenemos SUPERFOCUS que de manera mas o menos rápida clasifica las lecturas en los grupos funcionales de SEED.
A tool for agile functional analysis of shotgun metagenomic data
-----------------------------------------------------------------------------------------------------------------------
Ejemplo para usar en biobacter con un solo archivo:
$ python /opt/SUPERFOCUS_0.26/superfocus.py -q FILE.fasta -dir superfocus
Ejemplo con varios archivos en un subdirectorio:
$ python /opt/SUPERFOCUS_0.26/superfocus.py -m 1 -q folder_with_seqs -dir superfocus
-h ------: print help
-q query file (FASTA or FASTQ format) or folder with multiple FASTA/FASTQ files when -m 1
-dir string: output directory
-m int: run the program for multiple files - 0 (False) / 1 ( True) (default: 0)
-o string: project name (default 'my_project')
-mi float: minimum identity (default 60 %)
-ml int: minimum alignment (amino acids) (default: 15)
-focus int: runs FOCUS; 1 does run; 0 does not run: default 0
-t int: number of threads (default 8)
-e float: e-value (default 0.00001)
-db string: database (DB_90, DB_95, DB_98, or DB_100; default DB_98)
-p int: amino acid input; 0 nucleotides; 1 amino acids (default 0)
-a string: aligner choice (rapsearch, blast, diamond; default rapsearch)
-fast int: runs RAPSearch2 or DIAMOND on fast mode - 0 (False) / 1 (True) (default: 1)
-n int: normalizes each query counts based on number of hits; 0 doesn't normalize; 1 normalizes (default: 1)
-r string: use only the subsystems in the organisms predicted by -focus ncbi / rast annotation (default: ncbi)
El resultado del análisis es una tabla tipo excel con cuatro niveles jerárquicos de clasificación de genes de RAST-SEED:
Subsystem Level 1 Subsystem Level 2 Subsystem Level 3 SEED Function Number of assignments Relative Abundance (%)
Amino Acids and Derivatives - Amino acid racemase Alanine_racemase_(EC_5.1.1.1) 12.1666666667 0.0041213878576
Amino Acids and Derivatives - Amino acid racemase Aspartate_racemase_(EC_5.1.1.13) 1.5 0.000508116311211
Amino Acids and Derivatives - Amino acid racemase Cryptic_alanine_racemase 0.25 8.46860518685e-05
Amino Acids and Derivatives - Amino acid racemase Diaminopimelate_epimerase_(EC_5.1.1.7) 4.0 0.0013549768299
Amino Acids and Derivatives - Amino acid racemase Glutamate_racemase_(EC_5.1.1.3) 4.72380952381 0.0016001631134
Amino Acids and Derivatives - Amino acid racemase Proline_racemase_(EC_5.1.1.4) 0.5 0.000169372103737
Esta tabla puede convertirse a una tabla que puede graficarse con Krona con los siguientes comandos:
$ cut -f1-5 my_project__results__all_levels_and_function.xls | awk -v OFS='\t' 'BEGIN {FS="\t"}; {print $5, $1, $2, $3, $4}' | sed 1,4d > FILE.krona
Lo que hacemos es básicamente cambiar el orden de las columnas con los valores en la primer columna y la clasificación después, ademas de alguna limpieza del archivo. Este nuevo archivo puede ya graficarse con Krona y generar un archivo html para visualizar e interactuar en cualquier navegador:
$ ktImportText -o FILE.html FILE.krona
El resultado es como el siguiente: