En las máquinas que tienen instalado Ubuntu la implementación de los programas BLAST que prepara el NCBI se puede instalar fácilmente desde los repositorios de la distribución:
sudo apt-get install ncbi-blast+
También se puede descargar directamente desde el NCBI si lo necesitamos para otras plataformas, o si queremos la última versión. La dirección es:
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastDocs&DOC_TYPE=Download
Vamos a llevar los archivos necesarios a la clase, así no nos demoramos con la descarga.
Para poder hacer un análisis blast primero tenemos que construir una base de datos. En nuestro caso, el conjunto de proteínas del genoma de cabra.
Recordar que ~/ significa en linux la ubicación de nuestra carpeta HOME.
mkdir ~/DB
mkdir ~/DB/BLAST
cd ~/DB/BLAST
Para hacer las bases de datos accesible desde otros directoriostenemos que crear una variable de entorno (environment variable).
export BLASTDB=~/DB/BLAST/
Esta variable de entorno va a existir mientras tengamos abierta esta sesión. Para hacer este cambio permanente, agregamos el comando anterior en .bashrc.
En primer lugar vamos a buscar proteínas de cabra que sean homólogas a las que estuvimos trabajando en el taller 1 (algunas de esas secuencias ya eran de cabra, pero vamos analizar todas). Las secuencias de las proteínas codificadas por el genoma de cabra se pueden descargar desde esta dirección en el NCBI.
ftp://ftp.ncbi.nlm.nih.gov/genomes/Capra_hircus/protein/protein.fa.gz
Es probable que por razones de seguridad no puedan descargar este archivo desde las computadoras del aula. En ese caso, el archivo está disponible al pie de esta página.
Descargamos el archivo al directorio ~/DB/BLAST y lo descomprimimos:
gunzip protein.fa.gz
Si gunzip no está instalado:
sudo apt-get install gunzip
O se puede descomprimir desde Nautilus. Y ya estamos listos para construir la base de datos:
mv protein.fa Capra_hircus_protein.fa
makeblastdb -in Capra_hircus_protein.fa -out cabra.protein -parse_seqids -dbtype prot
Ahora ya podemos hacer consultas sobre la base de datos
blastp -query A0FEQ6.fasta -db cabra.protein
Este comando debería dar una salida larga por la consola. Esto es para verificar que todo anda bien. En los pasos siguientes lo vamos a analizar.
Algunas pruebas:
blastp -query A0FEQ6.fasta -db cabra.protein -evalue 1e-20
blastp -query A0FEQ6.fasta -db cabra.protein -evalue 1e-20 -html > test1.html
blastp -query A0FEQ6.fasta -db cabra.protein -evalue 1e-20 -outfmt '6 std'
Y ya estamos listos para analizar las secuencias fasta el archivo simil.cabras.fasta del taller 1. Esto lo vamos a hacer en el taller 2.