Los productos de los ensambles de lecturas pueden anotarse para identificar las secuencias codificantes (CDS) y, si se conoce, asociarles una función, o bien identificarlas como proteínas hipotéticas.
Existen varios programas para realizar la anotación; uno de los más populares es el sistema de NCBI, pero el usuario no puede hacerlo directamente; se solicita a NCBI que lo haga. Sin embargo, una alternativa online mejor, además de ser más amigable, es el Rapid Annotation using Subsystem Technology (RAST).
Podemos anotar localmente con Bakta en nuestra computadora o en el servidor; en Biobacter tenemos ambos instalados. Bakta también ofrece un servicio online para anotar nuestro genoma rápidamente.
Bakta es anotador es muy similar a prokka, de hecho ya lo sustituye, es más completo y actualizado. Es un poco tardado, 45 min con 8 núcleos.
Bakta está instalado en un ambiente python con CONDA en el servidor Biobacter, por lo que primero habrá que activarlo:
$ conda activate bakta
(bakta)$ bakta --db /dbs/bakta/db/ file.fasta
Opciones
--output DIR nombre del directorio de salida
--genus Género de la bacteria
--species Especie
--strain Cepa
--prefix Prefijo para las anotaciones
--threads Número de CPUs (8 es recomendable)
Un muy buen anotador en linea.
Cargar el archivo fasta producto del ensamble con los contigs en RAST.
Esperar y se pueden ver los resultados en la página web.
Otro útil anotador de genomas microbianos es prokka; este tiene la ventaja de que nos genera varios tipos de archivos de salida. Necesitamos los contigs del genoma a anotar en formato fasta. Mediante un pequeño script, podemos anotar varios genomas de forma consecutiva.
Nota. Se recomienda mejor usar bakta (ver arriba).
A veces no queremos anotar todo el genoma, sino simplemente ver si tenemos genes especializados, como los de virulencia o de resistencia a antimicrobianos o a infecciones por virus. Existen varios scripts que nos permiten localizar este tipo de genes en el genoma que estemos analizando.
Si queremos localizar genes que codifiquen factores de virulencia, podemos basarnos en la base de datos Virulence Factors Database (VFDB). Ya que la VFDB suele ser poco amigable para anotar genomas, hemos creado un script que nos permite realizar este análisis: VF_classifier
Este programa lo podemos instalar en nuestra computadora o bien correrlo en el servidor Biobacter. Para instalarlo, siga las instrucciones en su repositorio de Github.
En Biobacter, primero hay que activar el ambiente conda:
$ conda activate VF_classifier
y luego ejecutar el script para un genoma en formato fasta:
$ VF_classifier -i genome.fasta -db /dbs/VFDB/VFDB_db
-i es el nombre del genoma(s)
-db es la ruta donde está la base de datos ya preconfigurada (/dbs/VFDB/VFDB_db)
O bien para varios genomas:
$ VF_classifier -i *.fasta -db /dbs/VFDB/VFDB_db
Si se corrieron varios genomas, podemos generar el heatmap con el script:
$ plot_vf_heatmap.R
Los genes de resistencia a antimicrobianos se pueden anotar en el genoma usando la base de The Comprehensive Antibiotic Resistance Database (CARD), ya sea directamente en su página web o bien en el servidor Biobacter usando el script Resistance Gene Identifier (RGI)
En Biobacter podemos anotar de la siguiente manera en el ambiente conda rgi:
$ conda activate rgi
$ rgi main --input_sequence genoma.fasta --output_file rgi --input_type contig --include_loose --num_threads 8 --clean
$ cut -f6,9,10,15-17 rgi.txt > rgi.tsv
$ grep "Strict" rgi.txt | cut -f9,10,15-17 > rgi_strict.tsv
Para identificar que mecanismos de defensa tienen las bacterias ante el ataque de virus, podemos subir nuestro genoma a la página de Defense Finder y obtener el resultado directamente.