Los productos de los ensambles de las lecturas pueden anotarse para identificar las secuencias codificantes (CDS) y asociarles una función, si se conoce, o bien identificarlas como proteínas hipotéticas.
Existen varios programas para realizar la anotación, uno de los más populares es el sistema de NCBI pero no lo puede realizar el usuario directamente sino que se solicita a NCBI que lo hagan ellos. Sin embargo, una mejor alternativa, además de mas amigable, es el Rapid Annotation using Subsystem Technology (RAST).
El archivo tipo fasta puede anotarse en RAST y de una manera preliminar y sin tener que tener acceso a internet, se pueden anotar en myRAST ya que funciona en la computadora (Linux, MacOSX o Windows) con conexión a internet.
Después de como una hora, crea todos los documentos con los resultados en /Documents/myRAST/, pero los primeros resultados están listos al cabo de pocos minutos.
Otro útil anotador de genomas microbianos es prokka, éste tiene la ventaja que nos genera varios tipos de archivo de salida. Necesitamos los contigs del genoma a anotar en formato fasta. Mediante un pequeño script, podemos anotar varios genomas consecutivamente.
$ prokka --outdir directorio --force --prefix tag --cpus n file.fasta
--outdir directorio en donde se escribirán los archivos de salida.
--force si existe el directorio sobreescribirá en el (en caso que el archivo del genoma tenga el mismo nombre que uno ya usado).
--prefix un código para nombrar los archivos de salida.
--cpus número de cpu a usar (depende de la capacidad de la computadora).
file.fasta nombre del archivo con los contigs del genoma en formato fasta.
Si queremos anotar varios genomas automáticamente, con el scrip prokka_annotate.sh podemos hacerlo en el servidor biobacter.