Tema 3. Métodos para alinear secuencias. Blast

La presentación de esta clase en formato pdf está disponible en este link.

En este documento pueden encontrar la matriz Blosum62 en formato pdf (traerla impresa para la clase).

NCBI-BLAST

En esta clase vamos a utilizar la implementación de Blast que ofrece el NCBI: http://blast.ncbi.nlm.nih.gov/

En la página principal hay tres secciones:

- BLAST assembled genomes
- Basic BLAST
- Specialized BLAST

BLAST assembled genomes

La primera sección, "BLAST assembled genomes", es para buscar secuencias que sean similares a nuestra secuencia consulta en diferentes genomas que ya están secuenciados y anotados.

Basic BLAST

Las opciones que se encuentran en la sección siguiente "Basic BLAST" nos permiten hacer búsquedas en diferentes bases de datos y además podemos ajustar diversos parámetros del programa. Tenemos varios programas para elegir, dependiendo de la naturaleza de nuestra consulta, proteínas o ácidos nucleicos, y la base de datos contra la que queremos hacer la búsqueda:

- nucleotide blast: nuestra consulta es una secuencia de ácidos nucleicos y queremos buscar secuencias similares en la base de nucleótidos. Por ejemplo, tenemos la secuencia de un fragmento de ADN amplificado por PCR y queremos buscar algún gen en la base de datos que se le parezca. Dentro de este tipo de búsquedas, a su vez tenemos tres opciones:
  - megablast: es para encontrar secuencias en la base de datos, o "hits", que se parezcan mucho a nuestra consulta (más del 95%), la ventaja es que las búsquedas son muy rápidas. Resulta de utilidad cuando, por ejemplo, tenemos fragmentos de ADN amplificados a partir de algún cultivar de arroz, y queremos encontrar secuencias similares en el genoma de arroz. Para esta opción también podríamos utilizar la opción de "BLAST assembled genomes".
  - discontinuous megablast: es similar al anterior, pero menos restrictivo. Es útil cuando, por ejemplo, nuestra secuencia es de un organismo evolutivamente cercano a un genoma que ya se encuentra depositada.
  - blastn: es el más lento de los tres, pero sirve para encontrar secuencias con menor similitud.
- protein blast: nuestra secuencia es una cadena de aminoácidos y queremos buscar similitudes en la base de datos de proteínas. También hay tres variantes disponibles:
  - blastp (protein-protein BLAST): es la opción tradicional, busca las secuencias más similares a nuestra consulta en la base de datos
  - PSI-BLAST (Position-Specific Iterated BLAST): es una variante de Blast en varios pasos. El primero es un blastp clásico, luego utilizando los hits de esta primera búsqueda se construye un consenso entre los hits más significativos, y se inicia una nueva búsqueda. Este proceso se repite, o itera, tantas veces como quiera el usuario. Sirve para aquellos casos en que la primera búsqueda nos devuelve muy pocos hits. Volveremos a este método de blast más tarde. [más detalles en la clase 4]
  - PHI-BLAST (Pattern Hit Initiated BLAST): En este caso utilizamos blast para buscar secuencias que se parezcan a nuestra consulta, pero además indicamos una región más corta, que se puede corresponder con un dominio, un sitio de binding, en general, un patrón. Por ejemplo, supongamos que tenemos la secuencia de una proteína que incluye un sitio de interacción con ADN, y queremos encontrar proteínas con cualquier grado de similitud, no importa lo bajo que sea, pero queremos que esté presente el sitio de interacción con el ADN. También volveremos sobre este método más tarde. [más detalles en la clase 4]
  - DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST): En este caso primero se analiza la secuencia contra la base de datos de dominios del NCBI, y luego contra alguna base de datos de proteínas. [más detalles en la clase 4]
- blastx: Nuestra consulta es una secuencia de ADN que traducimos a secuencia de proteínas buscando contra la base de datos de proteínas. Un uso típico es cuando tenemos un cDNA que proviene de mRNA, y que por lo tanto se va a traducir, y queremos determinar para que producto codifica. Como normalmente no sabemos que cadena y desde que posición se lee, el programa traduce a aminoacidos con los seis marcos de lectura.
- tblastn: En este caso nuestra consulta es una proteína y buscamos en la base de datos de nucleótidos traducida a proteínas. Esta es una consulta lenta. Resulta útil cuando nuestra consulta es una proteína y queremos encontrar genes que codifiquen para proteínas similares.
- tblastx: Tanto la consulta como la base de datos son nucleótidos, pero las dos están traducidas a proteínas. Esta consulta consulta tambi'en es lenta. Se utiliza cuando nuestra consulta es una secuencia correspondiente a un EST o cDNA obtenido a partir de un mRNA, es decir, secuencias que se traducen a aminoácidos y queremos encontrar genes que codifiquen para proteínas similares a las que codifica nuestra consulta.

Specialized BLAST

Esta sección tiene links a varios programas, pero analizaremos sólo algunos de ellos:

- Primer-BLAST: A partir de una secuencia de entrada se diseñan primers de PCR con Primer3. Luego los primers diseñados se analizan con Blast contra una base de datos seleccionada por el usuario para evitar que se diseñen que amplifiquen secuencias distitnas de la original.
- Find conserved domains in your sequence (cds): el NCBI mantiene una amplia base de datos de dominios. Con este programa podemos determinar si nuestra consulta contiene algún dominio conocido. Es recomendable consultar también la base de datos consolidada de dominios InterPro (http://www.ebi.ac.uk/Tools/InterProScan/)
- Find sequences with similar conserved domain architecture (cdart): las proteínas pueden contener más de un dominio. A veces es interesante conocer si la disposición de los dominios en nuestra secuencia-consulta es similar a la de otras proteínas conocidas.
- Search sequences that have gene expression profiles (GEO): el NCBI funciona como un repositorio de datos de experimentos de expresión génica, como microarrays. Desde este link podemos determinar si secuencias de ADN muy similares a nuestra consulta fueron analizadas en experimentos de expresión, y así poder caracterizar cómo se expresan genes con secuencias similares.
- Search for SNPs (snp): Actualmente se están llevando a cabo varios proyectos para descubrir grandes cantidades de alelos para SNPs (single nucleotide polymorphism). Es posible determinar si en una secuencia determinada se descubrieron SNPs, cuá es su ubicación exacta y que cambios de base ocurren. Hasta el momento solo se incluyeron SNPs de Arabidopsis y de arroz.
- Screen sequence for vector contamination (vecscreen): un problema común al secuenciar moléculas de ADN es obtener no solo información para el fragmento que nos interesa, sino también parte de la secuencia del vector, por ejemplo un plásmido, donde se clonó nuestro fragmento. Es importante remover las secuencias de los vectores, también llamadas contaminaciones, porque interfieren y causan artefactos cuando se realizan búsquedas y comparaciones.
- Align two sequences using BLAST (bl2seq): una situación frecuente es contar con dos secuencias, ya sean de aminoácidos o proteínas, y que se quieran alinear tan solo esas secuencias. Un caso típico es cuando se quiere determinar la presencia de intrones en un gen, del que conocemos su secuencia, y también tenemos la secuencia de su cDNA o de un Unigene ensamblado a partir de ESTs.

Efecto de algunos parámetros

El programa BLAST tiene varios parámetros que se pueden ajustar para obtener más o menos hits, e inversamente hacer que el programa corra más lento o más rápido. No simpre estásn disponibles todos, depende si lo estamos corriendo como un programa independiente o desde una página web, y en este último caso también va a variar según la implemntación particular de cada sitio.

Los más comunes y que tiene un efecto mayor sobre la cantidad de hits son:

Selección de la base de datos.
Filtros que agreguemos, por ejemplo, por especie.
- Umbral de E. Este número indica cuál es el valor máximo de E que deben tener los hits de la salida. Cuanto más chico, menos hits tendrá la salida, pero corresponderan a secuencias con buenas similitudes con la secuencia consulta.
- W, el tamaño de la palabra. Cuánto mayor es W, menor es el número de palabras apareadas en la fase de siembra, por lo tanto es más específica la búsqueda, con menos hits y más rápida.
- Matriz de scoring. Lás más comunes son las matrices BLOSUM, la que se usa por defecto, BLOSUM62, es de propósito general, y sirve para la mayoría de los casos. Si las secuencias son largas, con BLOSUM45 es posible encontrar más hits, pero con apareamientos menos estrictos. BLOSUM80 es la más estricta de las tres.
- Penalización por gaps. Distinguimos dos números para caracterizar la penalización, el costo de iniciar un gap y el costo de extenderlo. Cuánto menor sea la penalización, mayor es el número de hits que encontraremos para la consulta, pero las similitudes serán menores.

Otros sitios web con BLAST

Muchos sitios web específicos para grupos de plantas o microorganismos incluyen herramientas para hacer análisis BLAST contra bases de datos seleccionadas. En su gran mayoría estas bases de datos también están presentes en las primarias como Genbank, y por lo tanto son acccesibles desde el NCBI. Sin embargo, al consultar desde estos sitios específicos se pueden acelerar las búsquedas u obtener resultados más "limpios", porque nos restringimos a un grupo de interés particular.

Plantas

- Plant Genome Database (PlantGDB): http://www.plantgdb.org/cgi-bin/blast/PlantGDBblast
- Gramene. A Resource for Comparative Grass Genomics: http://www.gramene.org/Multi/blastview
- GrainGenes. A Database for Triticiae and Avena: http://wheat.pw.usda.gov/GG2/blast.shtml
- The Arabidopsis Information Resource: http://www.arabidopsis.org/Blast
- SOL Genomics Network (Solanaceae and Ruaceae): http://www.sgn.cornell.edu/tools/blast/

Microorganismos

Microbes online
- IMG Integrated Microbial Genomes
- Fungal Genome Initiative: www.broad.mit.edu/cgi-bin/annotation/fgi/blast_page.cgi
Comparative Fungal Genomics Platform

Ejercicios

1. Utilizar las dos secuencias de abajo para hacer un Blast para dos secuencias

LOCUS AM887593 3620 bp DNA linear PLN 05-MAR-2008

DEFINITION Arabidopsis thaliana 4CL2 gene for 4-coumarate-CoA-ligase, ecotype

PER-1, exons 1-4.

LOCUS NM_113019 1964 bp mRNA linear PLN 30-APR-2008

DEFINITION Arabidopsis thaliana 4CL2 (4-coumarate:CoA ligase 2);

4-coumarate-CoA ligase (4CL2) mRNA, complete cds.

2. La secuencia DQ103595 es un BAC de Arabidopsis. Investigar que secuencias se pueden encontrar por Blast ¿Qué pasa al analizar la secuencia por blastn y por blastx?

3. El archivo sec_ejercicio.fasta contiene una secuencia de arroz. Buscar secuencias similares con Blast para hacer una anotación preliminar.

Volver a la página principal del sitio [Home]

Page updated

Report abuse