El desarrollo de la bioinformática ha generado técnicas de análisis de secuencias de ácidos nucleicos y proteínas con múltiples objetivos: determinación de homologías, alineamiento de secuencias homólogas, predicción de estructuras, filogenias, evolución molecular, diseño de fármacos, etc. Algunas de estas técnicas han dado lugar a productos comerciales y otras herramientas de uso público libremente disponibles en Internet.
Objetivo
Desarrollar la capacidad de búsqueda en base de datos, para analizar y comparar secuencias de ADN, ARN y proteínas, a través de uso de herramientas bioinformáticas, apoyándose de la bibliografía de base y de las instrucciones dadas.
Resultados
Ejercicio 1: búsqueda de información de un gen específico
En este apartado debe buscar información para el gen que codifica a la proteína precursora de amiloide (APP) en humanos.
Para ello, ingrese a la página: https://www.ncbi.nlm.nih.gov/pubmed/
En la pestaña desplegable de la izquierda, selecciona “Gene”, y en el cuadro de búsqueda escribe “amyloid protein precursor”.
De los resultados obtenidos, seleccione el gen que se ajusta a los requisitos descritos previamente. ¿Qué número de identificación o gene ID tiene? 351
Una vez seleccione el gen correspondiente, encontrará toda la información que la comunidad científica conoce sobre ese gen.
Discuta en grupo la información que contiene la página y conteste a las siguientes preguntas acerca de tu hallazgo:
¿Qué función tiene este gen?
Este gen codifica un receptor de la superficie celular y una proteína precursora transmembrana que las secretasas escinden para formar varios péptidos.
¿Qué localización cromosómica tiene ese gen?
Cromosoma 21
Nombre 5 tejidos donde se exprese el gen. ¿En cuál tejido se expresa en mayor cantidad?
Cerebro (mayor cantidad), riñón, adrenal, tiroides y colon.
¿Se conocen variantes en el gen que resulten patogénicas?
Sí, y estas pueden causar alzheimer.
Ejercicio 2: comparación de secuencia de ADN con otras secuencias de ADN registradas en bases de datos
Imagine que está trabajando en un laboratorio y ha clonado y secuenciado el fragmento de ADN que aparece a continuación:
ACTGTTTAAGGAAAAATAAAAGTGCTGCCAGAACCTAAGAAAAACATTAATATCTAAAA GGTCATTTAGATGATTTCCATGAGAGACTTTTTGATGTTCTTTACCTGTTAGGATTATT ATTGATAATCCTTTTCAGATTATCAATAAACAGTTTGCCCTCAAGTATTTATTCATGCT AATATTTACTTTGTAAAATGTGCTTCTTACAGGAATATAAATAGTTTCTGGAAAGGACA CTGACAACTTCAAAGCAAAATGAAGTTCTTTCTGTTGCTTTTCACCATTGGGTTCTGCT GGGCTCAGTATTCCCCAAATACACAACAAGGACGGACATCTATTGTTCATCTGTTTGAA TGGCGATGGGTTGATATTGCTCTTGAATGTGAGCGATATTTAGCTCCGAAGGGATTTGG AGGGGTTCAGGTGGGTATGATTCATAGTATCAATTGCGAAT
¿Existe la secuencia que has secuenciado en el laboratorio en la base de datos?
Sí.
En caso afirmativo, ¿qué codifica tu secuencia?
Amilasa pancreatica.
¿A qué especie pertenece tu secuencia?
Homo sapiens
¿Existen otras especies que tengan una secuencia parecida en su genoma?
Sí, existen varias especies que tienen una secuencia parecida en su genoma.
¿Podrás publicar en una revista científica u otros investigadores se te han adelantado?
No se puede publicar, ya que existen articulos previas de otros investigadores.
Ejercicio 3: comparación entre múltiples secuencias de ADN y proteína
¿Cuántos resultados obtiene?
Obtuvimos 2 resultados.
¿Qué posibles explicaciones le da al hecho de que se haya obtenido más de una secuencia para el mismo gen a partir del ADN de un solo hueso de mamut?
Porque se obtuvo una secuencia del padre y una de la madre.
Compare las secuencias obtenidas entre sí utilizando el programa ClustalW. Específicamente, las secuencias de proteínas que se obtienen al traducir los genes resultantes de tu búsqueda. Para ello:
Acceda al primer resultado que haya obtenido.
En la columna de la derecha, dentro del panel “Related information” acceda a “Protein”.
Una vez haya accedido a la secuencia de proteína, consígala en formato FASTA, accediendo a la siguiente pestaña.
Copie el resultado a un archivo de texto (.txt).
>DQ648860.1 Mammuthus primigenius haplotype 1 melanocortin-1 receptor gene, complete cds
CCCCCTAAGCAGCCTCGCCACGACGGCAGAGGTGAGAAGGTGGGCTGAGGACGCAGAGGACTGAGGCCAC
AGAGTACGGAGTGTGCTCCGGGCTCAGGGAGCCCAGACACCAGGGCCATGTGTGGGCCAGCCTCTGGCTG
GCCGGGAAGGTGGTAAGCGTGAGGGCCCACAAGCTCCTGTGGCCACAATGCACTGACCAGAGTGCTGGAG
AGTGGGGACCAGGCTGGAATTGGAGGCCCCCATTGGACACCTCTGTGACCCTGTTCCAGCTCGCGGGGGG
CTATGCCCATGCAGGGAGCCCAAGGGAGGCTGCGAGGCTCCCTCAATGCCACACCCCCCACAACACCCCA
CTCGGGACTGGCTGGCAACCAGACAGGCCCCTGGTGCTTGGAGGTATCCATCCCGGATGAGCTCTTCCTC
TCACTGGGGCTGGTGAGCCTGGTGGAGAATATGCTGGTGGTGGCTGCCATTGCCAAGAACCGCAACCTGC
ACTCGCCCATGTACTACTTCATCTGCTGCCTGGCCGTGTCCGACCTGCTGGTGAGTGTGAGCAACGTGCT
GGAGACAGCTGTCATGCTGCTGCTGGAGGCAGGCGTGCTGGCTGCATGGGCAGGTGTAGTGCAGCAGCTG
GACAATGCCATCGACGTGTTCATCTGCGGCTCCATGGTGTCCAGCCTCTGCTTCCTGGGCGCCATTGCAG
TGGACCGCTACATCACCATCTTCTATGCGCTTCGCTACCACAGCATTGTGACACTGCCCCGGGCACGCTG
GGCCATTGCCACCATCTGGGCGGCCAGTGTGGTCTGCAGCACCCTCTTCATTGCCTACTATGACTGCACA
GCCGTGCTGCTCTGCCTTGTCAGCTTCTTCCTGGCCCTGGTGGTGCTCATGGCGGTGCTGTATATGCACA
TGCTGGCCCGGGCCTGCCTCCACGCCCGCAGCATCGCCCGGCTGCACAAGCGTTGGCGCCCAGTCCACCA
GGGCCTCGGCCTCAAGGGTGCCGCCACACTCTCCATCCTGCTGGGCTCCTTCTTTCTCTGCTGGGGCCCC
TTCTTCCTGCACCTCACACTCATCGTCCTCTGCCCCCAGCATCCCACCTGCAGCTGCGTCTTCAAAAACT
TCAAACTCTTTCTCACCCTCATCATCTGCAACTCCATCGTGGACCCTCTCATCTATGCCTTTCGTAGCCA
GGAGCTCCGCAAGACACTCAAAGAGGTGCTGCTGTGCTCCTGGTAG
>DQ648859.1 Mammuthus primigenius haplotype 2 melanocortin-1 receptor gene, complete cds
CCCCCTAAGCAGCCTCGCCACGACGGCAGAGGTGAGAAGGTGGGCTGAGGACGCAGAGGACTGAGGCCAC
AGAGTACGGAGTGTGCTCCGGGCTCAGGGAGCCCAGACACCAGGGCCATGTGTGGGCCAGCCTCTGGCTG
GCCGGGAAGGTGGTAAGCGTGAGGGCCCACAAGCTCCTGTGGCCACAATGCACTGACCAGAGTGCTGGAG
AGTGGGGACCAGGCTGGAATTGGAGGCCCCCATTGGACACCTCTGTGACCCTGTTCCAGCTCGCGGGGGG
CTATGCCCATGCAGGGAGCCCAAGGGAGGCTGCGAGGCTCCCTCAATGCCACACCCCCCACAGCACCCCA
CTCGGGACTGGCTGGCAACCAGACAGGCCCCTGGTGCTTGGAGGTATCCATCCCGGATGAGCTCTTCCTC
TCACTGGGGCTGGTGAGCCTGGTGGAGAATATGCTGGTGGTGGCTGCCATTGCCAAGAACTGCAACCTGC
ACTCGCCCATGTACTACTTCATCTGCTGCCTGGCCGTGTCCGACCTGCTGGTGAGTGTGAGCAACGTGCT
GGAGACAGCTGTCATGCTGCTGCTGGAGGCAGGCGTGCTGGCTGCATGGGCAGGTGTAGTGCAGCAGCTG
GACAATGCCATCGACGTGTTCATCTGCGGCTCCATGGTGTCCAGCCTCTGCTTCCTGGGCGCCATTGCAG
TGGACCGCTACATCACCATCTTCTATGCGCTTCGCTACCACAGCATTGTGACACTGCCCCGGGCACGCTG
GGCCATTGCCACCATCTGGGCGGCCAGTGTGGTCTGCAGCACCCTCTTCATTGCCTACTATGACTGCACA
GCCGTGCTGCTCTGCCTTGTCAGCTTCTTCCTGGCCCTGGTGGTGCTCATGGCGGTGCTGTATATGCACA
TGCTGGCCCGGGCCTGCCTCCACGCCCGCAGCATCGCCCGGCTGCACAAGCGTTGGCGCCCAGTCCACCA
GGGCCTCGGCCTCAAGGGTGCCGCCACACTCTCCATCCTGCTGGGCTCCTTCTTTCTCTGCTGGGGCCCC
TTCTTCCTGCACCTCACACTCATCGTCCTCTGCCCCCAGCATCCCACCTGCAGCTGCGTCTTCAAAAACT
TCAAACTCTTTCTCACCCTCATCATCTGCAACTCCATCGTGGACCCTCTCATCTATGCCTTTAGTAGCCA
GGAGCTCCGCAAGACACTCAAAGAGGTGCTGCTGTGCTCCTGGTAG
Repita este proceso con cada uno de los resultados que haya obtenido para las proteínas codificada por MC1R en el organismo mamut.
Una vez haya realizado la acción anterior, acceda a la página web de ClustalW: http://www.genome.jp/tools/clustalw/
Cargue el archivo de texto que ha ido realizando con las secuencias de proteínas anteriores y asegúrese que está seleccionada la opción “Protein”, tal como muestra la imagen de abajo:
Nota importante: para que el programa ClustalW pueda leer la información de su archivo, es importante que esté en formato (.txt). NO es válido Microsoft Word. Además, todas las secuencias deben estar en el mismo archivo (no debe haber espacios entre una secuencia y otra). El inicio de cada secuencia debe ser, por ejemplo: >uniprot:MYH1_HUMAN P12882 Myosin heavy chain, skeletal muscle, adult 1 (Myosin heavy chain IIx/d) (MyHC-IIx/d). MSSDSEMAIFGEAAPFLRKSERERIEAQNKPFDAKTSVFVVDPKESFVKATVQSREGGKV resto de aminoácidos.
Ejecute la comparación haciendo clic en “Execute Multiple Alignment”. 14. Discuta el resultado con tus compañeros. ¿Qué resultados obtienes? Solo hay 3 pares de bases diferentes.
CLUSTAL 2.1 multiple sequence alignment
DQ648860.1 CCCCCTAAGCAGCCTCGCCACGACGGCAGAGGTGAGAAGGTGGGCTGAGGACGCAGAGGA
DQ648859.1 CCCCCTAAGCAGCCTCGCCACGACGGCAGAGGTGAGAAGGTGGGCTGAGGACGCAGAGGA
************************************************************
DQ648860.1 CTGAGGCCACAGAGTACGGAGTGTGCTCCGGGCTCAGGGAGCCCAGACACCAGGGCCATG
DQ648859.1 CTGAGGCCACAGAGTACGGAGTGTGCTCCGGGCTCAGGGAGCCCAGACACCAGGGCCATG
************************************************************
DQ648860.1 TGTGGGCCAGCCTCTGGCTGGCCGGGAAGGTGGTAAGCGTGAGGGCCCACAAGCTCCTGT
DQ648859.1 TGTGGGCCAGCCTCTGGCTGGCCGGGAAGGTGGTAAGCGTGAGGGCCCACAAGCTCCTGT
************************************************************
DQ648860.1 GGCCACAATGCACTGACCAGAGTGCTGGAGAGTGGGGACCAGGCTGGAATTGGAGGCCCC
DQ648859.1 GGCCACAATGCACTGACCAGAGTGCTGGAGAGTGGGGACCAGGCTGGAATTGGAGGCCCC
************************************************************
DQ648860.1 CATTGGACACCTCTGTGACCCTGTTCCAGCTCGCGGGGGGCTATGCCCATGCAGGGAGCC
DQ648859.1 CATTGGACACCTCTGTGACCCTGTTCCAGCTCGCGGGGGGCTATGCCCATGCAGGGAGCC
************************************************************
DQ648860.1 CAAGGGAGGCTGCGAGGCTCCCTCAATGCCACACCCCCCACAACACCCCACTCGGGACTG
DQ648859.1 CAAGGGAGGCTGCGAGGCTCCCTCAATGCCACACCCCCCACAGCACCCCACTCGGGACTG
****************************************** *****************
DQ648860.1 GCTGGCAACCAGACAGGCCCCTGGTGCTTGGAGGTATCCATCCCGGATGAGCTCTTCCTC
DQ648859.1 GCTGGCAACCAGACAGGCCCCTGGTGCTTGGAGGTATCCATCCCGGATGAGCTCTTCCTC
************************************************************
DQ648860.1 TCACTGGGGCTGGTGAGCCTGGTGGAGAATATGCTGGTGGTGGCTGCCATTGCCAAGAAC
DQ648859.1 TCACTGGGGCTGGTGAGCCTGGTGGAGAATATGCTGGTGGTGGCTGCCATTGCCAAGAAC
************************************************************
DQ648860.1 CGCAACCTGCACTCGCCCATGTACTACTTCATCTGCTGCCTGGCCGTGTCCGACCTGCTG
DQ648859.1 TGCAACCTGCACTCGCCCATGTACTACTTCATCTGCTGCCTGGCCGTGTCCGACCTGCTG
***********************************************************
DQ648860.1 GTGAGTGTGAGCAACGTGCTGGAGACAGCTGTCATGCTGCTGCTGGAGGCAGGCGTGCTG
DQ648859.1 GTGAGTGTGAGCAACGTGCTGGAGACAGCTGTCATGCTGCTGCTGGAGGCAGGCGTGCTG
************************************************************
DQ648860.1 GCTGCATGGGCAGGTGTAGTGCAGCAGCTGGACAATGCCATCGACGTGTTCATCTGCGGC
DQ648859.1 GCTGCATGGGCAGGTGTAGTGCAGCAGCTGGACAATGCCATCGACGTGTTCATCTGCGGC
************************************************************
DQ648860.1 TCCATGGTGTCCAGCCTCTGCTTCCTGGGCGCCATTGCAGTGGACCGCTACATCACCATC
DQ648859.1 TCCATGGTGTCCAGCCTCTGCTTCCTGGGCGCCATTGCAGTGGACCGCTACATCACCATC
************************************************************
DQ648860.1 TTCTATGCGCTTCGCTACCACAGCATTGTGACACTGCCCCGGGCACGCTGGGCCATTGCC
DQ648859.1 TTCTATGCGCTTCGCTACCACAGCATTGTGACACTGCCCCGGGCACGCTGGGCCATTGCC
************************************************************
DQ648860.1 ACCATCTGGGCGGCCAGTGTGGTCTGCAGCACCCTCTTCATTGCCTACTATGACTGCACA
DQ648859.1 ACCATCTGGGCGGCCAGTGTGGTCTGCAGCACCCTCTTCATTGCCTACTATGACTGCACA
************************************************************
DQ648860.1 GCCGTGCTGCTCTGCCTTGTCAGCTTCTTCCTGGCCCTGGTGGTGCTCATGGCGGTGCTG
DQ648859.1 GCCGTGCTGCTCTGCCTTGTCAGCTTCTTCCTGGCCCTGGTGGTGCTCATGGCGGTGCTG
************************************************************
DQ648860.1 TATATGCACATGCTGGCCCGGGCCTGCCTCCACGCCCGCAGCATCGCCCGGCTGCACAAG
DQ648859.1 TATATGCACATGCTGGCCCGGGCCTGCCTCCACGCCCGCAGCATCGCCCGGCTGCACAAG
************************************************************
DQ648860.1 CGTTGGCGCCCAGTCCACCAGGGCCTCGGCCTCAAGGGTGCCGCCACACTCTCCATCCTG
DQ648859.1 CGTTGGCGCCCAGTCCACCAGGGCCTCGGCCTCAAGGGTGCCGCCACACTCTCCATCCTG
************************************************************
DQ648860.1 CTGGGCTCCTTCTTTCTCTGCTGGGGCCCCTTCTTCCTGCACCTCACACTCATCGTCCTC
DQ648859.1 CTGGGCTCCTTCTTTCTCTGCTGGGGCCCCTTCTTCCTGCACCTCACACTCATCGTCCTC
************************************************************
DQ648860.1 TGCCCCCAGCATCCCACCTGCAGCTGCGTCTTCAAAAACTTCAAACTCTTTCTCACCCTC
DQ648859.1 TGCCCCCAGCATCCCACCTGCAGCTGCGTCTTCAAAAACTTCAAACTCTTTCTCACCCTC
************************************************************
DQ648860.1 ATCATCTGCAACTCCATCGTGGACCCTCTCATCTATGCCTTTCGTAGCCAGGAGCTCCGC
DQ648859.1 ATCATCTGCAACTCCATCGTGGACCCTCTCATCTATGCCTTTAGTAGCCAGGAGCTCCGC
****************************************** *****************
DQ648860.1 AAGACACTCAAAGAGGTGCTGCTGTGCTCCTGGTAG
DQ648859.1 AAGACACTCAAAGAGGTGCTGCTGTGCTCCTGGTAG
************************************
Realice la comparación entre la proteína codificada por el gen Mc1r de mamut y elefante (Elephas maximus). ¿Cómo son de similares o distintas las secuencias? Son muy similares por la cercanía del elefante y el mamut, solo tienen 6 aminoácidos diferentes.
Proteína
>ABG37011.1 melanocortin-1 receptor [Mammuthus primigenius]
MPMQGAQGRLRGSLNATPPTAPHSGLAGNQTGPWCLEVSIPDELFLSLGLVSLVENMLVVAAIAKNCNLH
SPMYYFICCLAVSDLLVSVSNVLETAVMLLLEAGVLAAWAGVVQQLDNAIDVFICGSMVSSLCFLGAIAV
DRYITIFYALRYHSIVTLPRARWAIATIWAASVVCSTLFIAYYDCTAVLLCLVSFFLALVVLMAVLYMHM
LARACLHARSIARLHKRWRPVHQGLGLKGAATLSILLGSFFLCWGPFFLHLTLIVLCPQHPTCSCVFKNF
KLFLTLIICNSIVDPLIYAFSSQELRKTLKEVLLCSW
>ABG37012.1 melanocortin-1 receptor [Mammuthus primigenius]
MPMQGAQGRLRGSLNATPPTTPHSGLAGNQTGPWCLEVSIPDELFLSLGLVSLVENMLVVAAIAKNRNLH
SPMYYFICCLAVSDLLVSVSNVLETAVMLLLEAGVLAAWAGVVQQLDNAIDVFICGSMVSSLCFLGAIAV
DRYITIFYALRYHSIVTLPRARWAIATIWAASVVCSTLFIAYYDCTAVLLCLVSFFLALVVLMAVLYMHM
LARACLHARSIARLHKRWRPVHQGLGLKGAATLSILLGSFFLCWGPFFLHLTLIVLCPQHPTCSCVFKNF
KLFLTLIICNSIVDPLIYAFRSQELRKTLKEVLLCSW
CLUSTAL 2.1 multiple sequence alignment
ABG37011.1 MPMQGAQGRLRGSLNATPPTAPHSGLAGNQTGPWCLEVSIPDELFLSLGLVSLVENMLVV
ABG37012.1 MPMQGAQGRLRGSLNATPPTTPHSGLAGNQTGPWCLEVSIPDELFLSLGLVSLVENMLVV
********************:***************************************
ABG37011.1 AAIAKNCNLHSPMYYFICCLAVSDLLVSVSNVLETAVMLLLEAGVLAAWAGVVQQLDNAI
ABG37012.1 AAIAKNRNLHSPMYYFICCLAVSDLLVSVSNVLETAVMLLLEAGVLAAWAGVVQQLDNAI
****** *****************************************************
ABG37011.1 DVFICGSMVSSLCFLGAIAVDRYITIFYALRYHSIVTLPRARWAIATIWAASVVCSTLFI
ABG37012.1 DVFICGSMVSSLCFLGAIAVDRYITIFYALRYHSIVTLPRARWAIATIWAASVVCSTLFI
************************************************************
ABG37011.1 AYYDCTAVLLCLVSFFLALVVLMAVLYMHMLARACLHARSIARLHKRWRPVHQGLGLKGA
ABG37012.1 AYYDCTAVLLCLVSFFLALVVLMAVLYMHMLARACLHARSIARLHKRWRPVHQGLGLKGA
************************************************************
ABG37011.1 ATLSILLGSFFLCWGPFFLHLTLIVLCPQHPTCSCVFKNFKLFLTLIICNSIVDPLIYAF
ABG37012.1 ATLSILLGSFFLCWGPFFLHLTLIVLCPQHPTCSCVFKNFKLFLTLIICNSIVDPLIYAF
************************************************************
ABG37011.1 SSQELRKTLKEVLLCSW
ABG37012.1 RSQELRKTLKEVLLCSW
****************
Conclusión
En resumen, Entrez Gene se presenta como una plataforma de acceso libre que ofrece detalles acerca de genes previamente investigados, al igual que GenBank, que provee secuencias de ADN y ARN. El banco de datos proporcionado en el aula exhibe la diversidad de estudios realizados sobre genes a lo largo del tiempo. Gracias a esta recopilación, se logró entender de manera precisa cómo se puede realizar la codificación de los genes, enlazándolo con el contenido impartido en las clases. El empleo de estas herramientas especializadas potencia el entendimiento y mejora la comprensión de áreas particulares del segmento genético bajo investigación.