Hasta ahora aplicamos métodos para alinear secuencias de a pares. Sin embargo, en muchas situaciones es importante obtener un alineamiento múltiple entre tres o más secuencias. Por ejemplo:
Predecir estructura de proteínas
Diseñar primers para PCR
Descubrir familias de proteínas
Encontrar homologías
Mejorar los resultados de Blast
Estudios evolutivos.
Tres de los métodos más comunes para realizar alineamientos múltiples son ClustalW, T-Coffee y Muscle. Pero existen otros (http://www.ebi.ac.uk/Tools/msa/)
ClustalW es el método más antiguo de los tres. Hoy en dia, no se recomienda su uso. Funciona bien para secuencias relativamente parecidas, pero falla en el caso de secuencias más distantes. Es muy frecuente encontrarlo citado en la literatura hasta hace unos pocos años. En la literatura podemos encontrar referencias a ClustalW o a ClustalX. Los dos programas utilizan el mismo método de alineamiento, pero ClustalX incluye una interfaz gráfica que facilita su uso.
T-Coffee es un método de alineamiento múltiple que funciona bien incluso cuando las similitudes entre las secuencias son bajas. La desventaja es que es un algoritmo lento, especialmente a medida que aumenta el número de secuencias. Por su parte, Muscle es un programa posterior a ambos que realiza alineamientos tan buenos como T-Coffee y de manera muy rápida. Existen versiones de los tres programas para ejecutar localmente en nuestras computadoras, ya sea en Linux o Windows, o remotamente desde un servidor.
Las dos variantes se pueden descargar desde http://www.clustal.org/. Otros programas bioinformáticos como MEGA, incluyen la posibilidad de hacer alineamientos con Clustal o Muscle sin tener que instalarlo aparte. Un programa útil para ver y editar alineamientos es Jalview (www.jalview.org).
Otro programa para realizar alineamientos de un gran número de secuencias, o de secuencias muy largas, en tiempos relativamente cortos es MAFFT. Sin embargo, la calidad de los alineamientos es menor que la que se obtiene con los otros programas descriptos. Pero su velocidad hace que en ciertos casos sea la opción más conveniente.
En noviembre de 2011 el EBI agregó una interfaz para ejecutar el programa Clustal Omega (paper), un programa que servía originalmente para alinear secuencias de proteínas. Es un algoritmo muy eficiente que puede alinear grupos de secuencias, y también puede agregar secuencias a alineamientos ya preparados. Esta última característica está disponible en el programa instalable y no en la interfaz de Clustal Omega del EBI.
Hace poco el sitio del EBI agregó también el alineador webPRANK, que es un algortimo de alineamiento que tiene en cuenta relaciones filogenéticas. es útil para cuando se precisan alineamientos de mucha precisión.
El sitio del EBI tiene interfases web fáciles de usar para los programas mencionados, y con salidas informativas
T-Coffee: https://www.ebi.ac.uk/Tools/msa/tcoffee/
Muscle: https://www.ebi.ac.uk/Tools/msa/muscle/
MAFFT: https://www.ebi.ac.uk/Tools/msa/mafft/
Clustal Omega: https://www.ebi.ac.uk/Tools/msa/clustalo/
webPRANK: https://www.ebi.ac.uk/goldman-srv/webprank/
Algunos links útiles para trabajar con Jalview:
Ayuda rápida (PDF)
Manual completo y tutorial (PDF)
Al comparar simultáneamente varias proteínas relacionadas es común observar que aún en grupos donde la similitud entre ellas es baja, hay algunas partes de la secuencia que son similares. Estas similitudes pueden abarcan pocos aminoácidos bastante conservados (motivos) o extenderse en una región más grande, posiblemente con menor similitud (dominios). Los motivos no ocurren solamente en proteínas, también podemos encontrar motivos en secuencias regulatorias de ADN.
Determinar los dominios y motivos presentes en una proteína nos puede ayudar a postular su función y/o estructura. En el caso de promotores de genes nos sirve para saber que factores pueden regular la trascripción. Por esa razón, al realizar anotaciones o analizar secuencias es importante poder reconocer motivos y dominios.
Varios de estos patrones se descubrieron al analizar grupos de secuencias emparentadas. Hoy en día, además de los métodos de laboratorio, existen algoritmos bioinformáticos para descubrir y reconocer motivos o dominios en secuencias de proteínas y patrones de nucleótidos en zonas regulatorias de ADN. Para poder sistematizar y consultar esta información existen bases de datos de patrones.
Perfiles: Definimos un perfil como la descripción cualitativa o cuantitativa de un motivo. Puede ser, por ejemplo, una secuencia consenso de aminoácidos, una tabla indicando las probabilidades de aminoácidos o una matriz PSSM.
PSSM significa "position-specific scoring matrix", y es una matriz de scores que representa un motivo. A continuación vemos un ejemplo de PSSM para el sitio de unión al factor de transcripción PHO4 de levadura. Este motivo está presente en la región promotora de varios genes:
Una vez que se define un patrón y su PSSM, se puede analizar una secuencia y calcular el score para segmentos dentro de ella, a los que se les puede asignar un valor E o uno de probabilidad.
Bases de datos y herramientas para buscar perfiles, motivos y dominios
Distintos grupos de trabajos idearon diferentes métodos para descubrir patrones en secuencias, por ejemplo: Prosite o Pfam. También existen varias bases de datos de motivos, perfiles y dominios. Por este motivo se recomienda que al analizar una secuencia se consulte más de una base de datos, pero este es un proceso tedioso y que lleva tiempo. Para simplificar las búsquedas se creó InterPro, que es un agregador de varias bases de datos de dominios.
Los sitios más comunes para buscar dominios son:
Conserved Domain Database (CDD) del NCBI: http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
InterProScan en el EBI: http://www.ebi.ac.uk/interpro/
InterProScan hace búsquedas más exhaustivas que el buscador del NCBI, porque consolida la información de varias bases de datos diferentes, y normalmente devuelve más hits.
Otros programas para buscar patrones que permitan realizar inferencias sobre la estructura secundaria de una proteína son:
PSIPRED (diversas predicciones sobre estructura secundaria): http://bioinf.cs.ucl.ac.uk/psipred/
Phobius (predicción de peptidos señal y dominios transmembrana): http://www.ebi.ac.uk/Tools/pfa/phobius/
No es un buscador, pero una técnica de visualización útil para mostrar consensos en secuencias son los "sequence logos", una aplicación web para hacerlos es http://weblogo.berkeley.edu/logo.cgi
Búsquedas con PSI-blast, PHI-Blast y DELTA-Blast
En la clase anterior habíamos visto una introducción a estos dos programas de Blast especializados. Los dos programas funcionan sobre el concepto de realizar búsquedas reforzadas por la presencia de un patrón que se específica (PHI-Blast) o un patrón que se se descubre a partir delos hits que devuelve blastp para nuestra ´secuencia consulta.
PSI-Blast (Position Specific Iterative Blast) construye alineamientos múltiples de proteínas, busca patrones en los alineamientos y les asigna un valor de E utilizando PSSMs. El primer paso del método es un blast convencional. En el segundo se seleccionan los hits más significativos del paso anterior, y con ellos se construye un alineamiento múltiple, que a su vez se utiliza para construir una PSSM. Esta PSSM se utiliza para realizar una segunda búsqueda en la base de datos de proteínas. Los hits más significativos se pueden agregar al alineamiento, crear una nueva PSSM y repetir el proceso. Este búsqueda iterativa aumenta la sensibilidad.
PHI-Blast (Pattern Hit Initiated Blast) busca patrones dentro de la proteínas de una base de datos. Las entradas para este programa son la secuencia (query) y un patrón contenido en esa secuencia. PHI-Blast busca en la base de datos secuencias que contengan el patrón y que además tengan similitud con la secuencia consulta en las vecindades del patrón. La forma de calcular E es diferente del Blast regular. los patrones se especifican con una serie de reglas que son una variante del sistema de reglas conocido como "expresiones regulares".
Un ejemplo de patrón:
[LIVM]-G-x(2,3)-[LIVM]
Significado: Indicamos que la primera posición del patrón puede uno entre los aminoácidos leucina (L), isoleucina (I), valina (V) o metionina (M), seguido por glicina (G), seguido por dos o tres aminoácidos cualesquiera. La secuencia termina con un aminoácido del grupo [LIVM].
DELTA-Blast (Domain Enhanced Lookup Time Accelerated Blast) realiza la búsqueda en dos pasos. En el primero la secuencia consulta se utiliza para hacer una búsqueda contra la base de datos de dominios del NCBI, a partir de los mejores resultados se construye una matriz PSSM y utiliza esta matriz como consulta se relaiza la segunda búsqueda contra alguna base de datos de proteínas seleccionada por el usuario.
1. Realizar un alineamiento múltiple con las secuencias de aminoácidos de diferentes cumarato-CoA ligasas de plantas que se encuentran en el archivo cumarato_CoA.fasta.
2. Hacer al menos dos alineamientos múltiples con algunos de estos conjuntos de secuencias de proteínas y ácidos nucleícos.
EST_proteasa_trigo.fasta - Secuencias de ESTs con homología a secuencias de proteasas.
Pseudomonas_DNA_Pol.fasta - Secuencias de genes que codifican para DNA Polimerasas III de distintas Pseudomonas
Pyrococcus_furiosos.fasta - Secuencias de aminoácidos de proteínas con función desconocida
Trigo_gi_133872359.fasta - Secuencias de ADN de variantes alélicas de un locus en parientes salvajes de trigo
3. El archivo mycobacterium_NP_214541.fasta contiene la secuencia NP_214541, o Rv0027, de Mycobacterium tuberculosis. Buscar secuencias similares con PSI-BLAST. Para practicar con los programa PHI-BLAST utilizar el patrón descripto en mycobacterium_patron.txt. (nota: este patrón se contruyó a partir del análisis del alineamiento múltiple de 16 secuencias similares a NP_214541, están todas en el archivo mycobacterium.fasta)
4. El archivo proteinas_LRR.fasta contiene las secuencias de varias proteinas de Triticum aestivum que contienen dominios ricos en repeticiones de leucinas (LRR). Realizar un alineamiento con MUSCLE y con otro alineador más de los que vimos en clase, y analizar la salida con JalView instalado en la computadora (no la versión on-line).
5. El archivo canales_calcio.fasta contiene las secuencias de aminoácidos de varios canales de calcio de trigo, arroz, cebada, maíz y Arabidopsis. Alinearlas con el algoritmo Clustal dentro del programa Mega.
6. El archivo glucanase_1_3_beta.fasta tiene varias secuencias nucleotídicas de glucanasas beta 1-3 de varias plantas.
7. Utilizar los números de acceso GI o GB de los archivos similares_ABX13597_gb.txt o similares_ABX13599_gi.txt para recuperar las secuencias fasta utilizando la herramienta BatchEntrez de NCBI. Alinear las secuencias con alguna de los programas analizados y luego analizar el alineamiento con JalView.
8. Analizar la proteína CAA06274 de Bradyrhizobium japonicum con blastp y DELTA-Blast.