Se procederá a la corrección de un cromatograma empleando el programa Chromas. Para ello revisaremos las bases no resueltas y las variaciones encontradas al compararlo con la secuencia en el NCBI. Para determinar dichas bases, usaremos Blast tanto de nucleótidos (Blastn) como de proteínas (Blastx).
Cuando realizamos una secuenciación con una empresa, estas nos envían un archivo con la secuencia y otro con el cromatograma (representación gráfica donde aparecen diferentes picos, cada uno asociado a un nucleótido). El cromatograma que vamos a corregir en esta tarea es de calidad media, ya que hay zonas con mayor definición y otras con menos.
Existe un código de colores que asigna un color a cada base nitrogenada, como se muestra en la imagen (1) de la derecha. La N se le asigna a aquellas bases que el programa no ha podido determinar por no detectar el pico con la suficiente claridad.
En la imagen (2) se muestra como se vería un cromatograma, con los picos correspondientes a cada nucleótido, que se indica en la parte superior acompañado de su posición.
Antes de comenzar, debemos de establecer el left trim o recorte izquierdo. Este consiste en eliminar las bases (empezando por la izquierda) que no estén determinadas claramente. En este caso, estableceremos el recorte en la base 161, a partir de la cual las señales de los picos comienzan a tener más calidad. La parte amarilla delimita la zona con ruido que no usaremos para la corrección.
El right trim o recorte derecho lo determinaremos más tarde con ayuda de un Blast global, ya que si lo hacemos ahora no tenemos una referencia adecuada para saber hasta que base debemos de seleccionar.
Antes de realizar algún Blast podemos corregir aquellas bases que tengan picos distinguibles pero a las que el programa haya asignado una N.
En la posición 718, cambiamos la N por una G
En la posición 833, cambiamos la N por una G
En la posición 847, cambiamos la N por una A
En la posición 858, cambiamos la N por una C
A continuación debemos de buscar la redundancia, o bien buscando en el NCBI o bien secuenciando de nuevo (la misma cadena o la complementaria). En este caso usamos el BLASTn (alineamiento local) para ver si la secuencia ya ha sido secuenciada. Este tipo de alineamiento nos dará los mejores resultados, es decir, aquellas zonas que más se parezcan, por lo que sería conveniente también realizar un alineamiento global posteriormente. Para ello, utilizamos la opción de BLAST Search que nos proporciona Chromas. Esta opción realiza un BLASTn (nucleótidos) comparando nuestra secuencia con las de la base de datos del NCBI. Los resultados obtenidos son los siguientes:
Como se puede observar en la imagen anterior, el resultado con una mayor identidad se trata de un factor de transcripción bHLH75 de Fragaria vesca (fresa silvestre), cuya secuencia se muestra a continuación:
A la vista de los resultados obtenidos, podemos deducir que nuestra secuencia ya ha sido secuenciada con anterioridad en la base de datos del NCBI y se corresponde a la de este factor de transcripción. Sin embargo, observamos que el alineamiento no es totalmente igual, sino que hay diferencias en algunos nucleótidos y que incluso hay gaps (huecos), que representan inserciones o deleciones. estas diferencias pueden deberse a mutaciones que se hayan producido entre el organismo del NCBI y el de nuestro cromatograma. También pueden ser causa de algún fallo en la secuenciación, por lo que vamos a revisar el cromatograma para comprobar aquellas bases que presenten discordancias.
Para obtener algo más de información que nos ayude en las correcciones, realizamos también un BLASTx (también de NCBI) para conseguir la secuencia de aminoácidos de la proteína a la que codifica nuestra secuencia, comparándola a su vez con otras secuencias. Volvemos a seleccionar el resultado del factor de transcripción cuya secuencia de nucleótidos se correspondía con la nuestra. De aquí podemos extraer cuál es el marco de lectura, en este caso el 3.
Todas las discrepancias entre la secuencia Subject (NCBI) y la Query (nuestra secuencia) que se muestran a continuación se dejan tal y como aparecen en la Query (no se corrigen), ya que en todos los casos al comprobar el cromatograma existe un pico claro para dicha base. Por lo tanto, se deduce que deben de estar causadas por mutaciones.
POSICIÓN 174:
Subject: G
Query: C
Se mantiene C
POSICIÓN 208:
Subject: C
Query: A
Se mantiene A
POSICIÓN 241:
Subject: T
Query: C
Se mantiene C
POSICIÓN 281:
Subject: G
Query: T
Se mantiene T
POSICIÓN 295:
Subject: C
Query: T
Se mantiene T
POSICIÓN 313:
Subject: A
Query: G
Se mantiene G
POSICIÓN 445:
Subject: A
Query: T
Se mantiene T
POSICIÓN 457:
Subject: C
Query: T
Se mantiene T
POSICIÓN 496:
Subject: T
Query: A
Se mantiene A
POSICIÓN 643:
Subject: C
Query: T
Se mantiene T
POSICIÓN 664:
Subject: T
Query: C
Se mantiene C
POSICIÓN 685 (tras haber eliminado una C)*:
Subject: A
Query: C
Se mantiene C
*Encontramos que en ambas secuencias (Subject y Query) se especifica que en la posición 674 hay 3 citosinas seguidas. Sin embargo, observando el cromatograma solo vemos dos picos en lugar de tres, por lo que vamos a eliminar un de las citosinas. Esto se traduciría en una deleción en nuestra secuencia.
Secuencia original (sin deleción)
Secuencia del cromatograma (con deleción)
Hay un grupo de bases de la posición 694 a la 699 (TCAATT en la secuencia Query) y que debería ser ACAAAT según la secuencia de Subject. Observando la zona del cromatograma correspondiente, todos los picos se ven con claridad así que no cambiamos nada. Sin embargo, insertamos una T que no ha sido reconocida en el cromatograma pero que es evidente, ya que hay un triple pico seguido de timinas. Con esta pequeña inserción ya se recupera el marco de lectura que se había desplazado por la deleción anterior.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de T)
En la posición 727 vemos que existe un doble pico de adenina que solo se identifica con una base en la secuencia Query, pero como nos indica la secuencia de Subject y es visible en el cromatograma, podemos intuir que existen dos A seguidas y no solo una, por lo que insertamos una A.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de A)
En la posición 737 la secuencia Subject coloca una A, pero basándonos en los picos del cromatograma y en la distancia grande con las bases contiguas podemos afirmar que necesitamos una segunda A en la secuencia por lo que la insertamos.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de A)
Siguiendo los mismos criterios, vamos a insertar una C en la posición 757 ya que observamos dos picos y no uno como indica la secuencia original.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de T)
Igualmente en la posición 770 insertamos una A ya que vemos un pequeño pico antes de la siguiente A.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de A)
Como último cambio, en la posición 780 encontramos un doble pico de timina que solo se ha escrito como una T pero que debería aparecer doble en la secuencia por lo que la insertamos.
Secuencia Query (sin inserción)
Secuencia Query (con inserción de T)
Se vuelve a realizar un BLASTx una vez corregidos los errores para que nos sirva de ayuda y para ver si la puntuación ha aumentado:
Una vez corregido, realizamos un BLAST global (que se puede consultar aquí), el cual nos dará una visión de la secuencia completa y nos ayudará a establecer el right trim o recorte derecho. A partir de la zona que se muestra en la imagen se encuentran muchas discrepancias y por tanto se decide establecer el recorte en la posición 805.
Después de realizar los cambios vistos en el apartado anterior, se realiza un BLASTn de nuevo para ver si la calidad es mejor, es decir, si obtenemos una mayor puntuación:
Desde mi punto de vista ha sido una práctica en la que hemos aprendido algo nuevo que nos permite poner a prueba nuestra capacidad de decisión, ya que hay algunos pasos (como establecer los recortes y cambiar o no alguna base) en los que tenemos que ser nosotros quienes decidamos lo que consideramos que es la mejor opción, teniendo en cuenta los conocimientos sobre proteínas y ADN. Por tanto, esta práctica nos ayuda a tener más capacidad de toma de decisiones en el ámbito científico.