En este tutorial vamos a analizar dos genes diferentes de un grupo de bacterias, uno es el gen que codifica para el ARN ribosomal 16S (16S rRNA) y el otro es el gen marC, que está involucrado en la resistencia a antibióticos.
Las secuencias de nucleótidos están disponibles aqui para el 16S rRNA y aquí para marC.
Paso 1. Crear los alineamientos
Hacer click sobre el botón ”Align” y seleccionar “Edit/Build Alignment” y después “Retrieve sequences from a file”, cargar el archivo 16S_rRNA.fasta.
A continuación vamos a completar la información sobre el grupo al que pertence cada secuencia. Este paso es opcional, pero permite agregar información extra sobre agrupamientos en las figuras de los árboles filogenéticos. También permite calcular distancias genéticas entre grupos. En nuestro caso vamos a agregar la información sobre la clase taxonómica. En la tabla siguiente está la clase a la que pertenece cada especie:
Esta información la vamos a agregar a la columna "Group Name" en el editor de MEGA. Hacer doble click sobre cada celda y completar. Al finalizar nos tiene que quedar de esta manera:
Esta ventana es el “Alignment Explorer”. Desde aqu'i seleccionamos la opción “Alignment” y después “Align by Muscle”. Cuando el programa pregunte si queremos seleccionar todas las secuencias, clickear “OK”.
A continuación aparece el menú de configuración de Muscle. Aceptar las opciones que aparecen por defecto y clickear sobre el botón “Compute”.
Revisar el alineamiento desplazándose con el selector de la barra en la parte inferior de la ventana.
Paso 2. Guardar el alineamiento y los datos
Seleccionar “Data” en el menú del Alignment Explorer y después “Save Session” para guardar los datos y “Export Alignment” para guardar el alineamiento, para este ejercicio seleccionar la primera opción “Mega format”. El programa pregunta primero donde queremos guardar el archivo y después nos pide un título para el trabajo “Input title of the data”, lo podemos dejar en blanco o escribir algún título descriptivo como “Secuencias de genes 16S rRNA”, después el programa nos pregunta si los datos corresponden a secuencias codificantes, contestamos “No”
A continuación podemos cerrar el “Alignment explorer” y abrir el archivo con extensión meg que acabamos de crear en la ventana principal del programa o en la opción “Data” del menú principal del Alignment explorer seleccionar “Phylogenetics Analysis”.
En cualquiera de los dos casos vamos a tener las secuencias alineadas como datos activos en la ventana principal.
Paso 3. Búsqueda del mejor modelo de sustituciones
rRNA 16S
Primero vamos a elegir el mejor modelo de sustitución de nucleótidos para nuestros datos y determinar si se justifica hacer una corrección por variabilidad entre sitios. En la barra de iconos del menú principal seleccionamos “Models” y después la primera opción del menú desplegable: “Find Best DNA/protein models (ML)…”. Confirmar estas opciones de configuración:
Tree to use: Automatic (Neighbor Joining Tree)
Gaps Missing Data Treatment: Complete deletion. esta es una opción razonable para una secuencia de rRNA 16S, porque tienden a ser muy conservadas.
Branch Swap Filter: Very Strong. Esta opción está bien para un tutorial, porque la búsqueda es rápida, pero no tan exhaustiva. Para un trabajo de investigación, es mejor usar una opción más estricta.
Los resultados están en la tabla 1 (pdf).
Esta tabla se lee de arriba para abajo, los modelos con menores valores de BIC y AIC y valores mayores de lnL (menos negativos) son mejores porque describen adecuadamente los datos con el mínimo número de parámetros posibles. En nuestro caso el modelo seleccionado es el Tamura de 3 parámetros (T92) con tasas variables de mutación entre sitios y presencia de sitios invariables.
El modelo T92 supone que hay tasas diferentes de transiciones y transversiones, y contempla además sesgos en el contenido de G+C; es decir, que las proporciones de nucleótidos no se encuentran en el equilibro.
marC
Antes de continuar con el análisis del gen del 16S rRNA, vamos a alinear y buscar los mejores modelos para las secuencias de marC (marC.fasta).
Luego de realizar el alineamiento es posible ver el alineamiento de nucleótidos o el producto de la traducción a aminoácidos.
Calcular los modelos de sustitución de nucleótidos para el alineamiento (asegurarse de estar trabajando con el alineamiento de nucleótidos). Los resultados están en la tabla 2 (pdf). Al comparar los modelos para ambos genes vemos que TN93+G y TN93+G+I tienen bajos valores de BIC y AIC.
El modelo Tamura-Nei (TN93) supone que las tasas de las transiciones (A<->G, C<->T) pueden ser diferentes entre sí. Mientras que los dos tipos de transversiones tienen la misma tasa. Es decir, considera tres tipos de tasa de mutación.
marC a partir de las secuencias de aminoácidos
En este caso, en el que tenemos las secuencias codificantes completas, en el marco de lectura correcto y desde el codón 1, existe una alternativa de análisis. Se podrían alinear las secuencias de áminoacidos (ir a la pestaña de secuencia de aminoácidos y alinear desde ahí). Luego se podrían buscarlos mejores modelos de sustitución, pero para aminoácidos (verificar que las opciones son diferentes).
Cálculo de matrices de distancias genéticas
Debido a que asignamos nuestras secuencias a grupos, se pueden realizar cálculos por individuo o por grupos. Por ejemplo, en la ventana principal clickear sobre el ícono “Distance” y calcular las matrices de distancia para ambos casos.
Cómputo de los árboles filogenéticos
Al momento de construir los árboles filogenéticos a partir de los alineamientos de nucleótidos podemos utilizar el mejor modelo de sustitución para cada uno de los genes. Esto es razonable, porque uno de los genes codifica para un producto final que es un ARN y el otro para una proteina. además, claramente están sometidos a diferentes presiones de selección.
En este caso, para simplificar el tutorial Clickear el ícono “Phylogeny” y construir las filogenias para ambos genes utilizando el método de neighbor joining, seleccionar el método de sustitución y luego seleccionar para las tasas de mutación variables entre sitio (“Rates among sites”) la opción “Gamma distributed” y asignarle a gama el valor que nos indica las tablas 1 y 2.
En ambos casos recordar validar los árboles por bootstrap.
Alternativa: generar un árbol a partir del alineamiento de aminóacidos considerando el mejor modelo de sustitución. Aqui hay que tener en cuenta que no todos los modelos de sustitución están definidos para los distintos métodos de construcción de árboles. Por ejemplo, el modelo LG (Le y Gascuel) no se puede usar con el método de neighbor-joining.
Las dos figuras siguientes muestran los árboles obtenidos para ambos genes. Los de ustedes pueden ser un poco diferentes. Qué se puede decir de las relaciones filogenéticas para ambas genes?
16S rRNA
marC