Para clasificar las lecturas obtenidas en funciones, podemos usar varias opciones online, la más recomendable es MG-RAST, pero es extremadamente lenta (semanas) o bien en el servidor. En el servidor tenemos SUPERFOCUS que de manera mas o menos rápida clasifica las lecturas en los grupos funcionales de SEED.
A tool for agile functional analysis of shotgun metagenomic data
-----------------------------------------------------------------------------------------------------------------------
Ejemplo para usar en biobacter con un solo archivo:
$ python /opt/SUPERFOCUS_0.26/superfocus.py -q FILE.fasta -dir superfocusEjemplo con varios archivos en un subdirectorio:
$ python /opt/SUPERFOCUS_0.26/superfocus.py -m 1 -q folder_with_seqs -dir superfocus -h ------: print help -q query file (FASTA or FASTQ format) or folder with multiple FASTA/FASTQ files when -m 1 -dir string: output directory -m int: run the program for multiple files - 0 (False) / 1 ( True) (default: 0) -o string: project name (default 'my_project') -mi float: minimum identity (default 60 %) -ml int: minimum alignment (amino acids) (default: 15) -focus int: runs FOCUS; 1 does run; 0 does not run: default 0 -t int: number of threads (default 8) -e float: e-value (default 0.00001) -db string: database (DB_90, DB_95, DB_98, or DB_100; default DB_98) -p int: amino acid input; 0 nucleotides; 1 amino acids (default 0) -a string: aligner choice (rapsearch, blast, diamond; default rapsearch) -fast int: runs RAPSearch2 or DIAMOND on fast mode - 0 (False) / 1 (True) (default: 1) -n int: normalizes each query counts based on number of hits; 0 doesn't normalize; 1 normalizes (default: 1) -r string: use only the subsystems in the organisms predicted by -focus ncbi / rast annotation (default: ncbi)El resultado del análisis es una tabla tipo excel con cuatro niveles jerárquicos de clasificación de genes de RAST-SEED:
Subsystem Level 1 Subsystem Level 2 Subsystem Level 3 SEED Function Number of assignments Relative Abundance (%)Amino Acids and Derivatives - Amino acid racemase Alanine_racemase_(EC_5.1.1.1) 12.1666666667 0.0041213878576Amino Acids and Derivatives - Amino acid racemase Aspartate_racemase_(EC_5.1.1.13) 1.5 0.000508116311211Amino Acids and Derivatives - Amino acid racemase Cryptic_alanine_racemase 0.25 8.46860518685e-05Amino Acids and Derivatives - Amino acid racemase Diaminopimelate_epimerase_(EC_5.1.1.7) 4.0 0.0013549768299Amino Acids and Derivatives - Amino acid racemase Glutamate_racemase_(EC_5.1.1.3) 4.72380952381 0.0016001631134Amino Acids and Derivatives - Amino acid racemase Proline_racemase_(EC_5.1.1.4) 0.5 0.000169372103737Esta tabla puede convertirse a una tabla que puede graficarse con Krona con los siguientes comandos:
$ cut -f1-5 my_project__results__all_levels_and_function.xls | awk -v OFS='\t' 'BEGIN {FS="\t"}; {print $5, $1, $2, $3, $4}' | sed 1,4d > FILE.kronaLo que hacemos es básicamente cambiar el orden de las columnas con los valores en la primer columna y la clasificación después, ademas de alguna limpieza del archivo. Este nuevo archivo puede ya graficarse con Krona y generar un archivo html para visualizar e interactuar en cualquier navegador:
$ ktImportText -o FILE.html FILE.kronaEl resultado es como el siguiente: