A partir del listado de proteínas que nos devolvió el NCBI, seleccionamos una cualquiera, por ejemplo, la que tiene como número de acceso BAE19752 :
1: BAE19752. Reports fructan:fructan 1...[gi:73486685]
LOCUS BAE19752 644 aa linear PLN 16-AUG-2005
DEFINITION fructan:fructan 1-fructosyltransferase [Triticum aestivum].
ACCESSION BAE19752
VERSION BAE19752.1 GI:73486685
DBSOURCE accession AB088410.1
KEYWORDS .
SOURCE Triticum aestivum (bread wheat)
ORGANISM Triticum aestivum
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP
clade; Pooideae; Triticeae; Triticum.
REFERENCE 1
AUTHORS Kawakami,A. and Yoshida,M.
TITLE Fructan:fructan 1-fructosyltransferase, a key enzyme for
biosynthesis of graminan oligomers in hardened wheat
JOURNAL Planta 223 (1), 90-104 (2005)
PUBMED 16034592
REFERENCE 2 (residues 1 to 644)
AUTHORS Kawakami,A. and Yoshida,M.
TITLE Direct Submission
JOURNAL Submitted (20-JUL-2002) Akira Kawakami, National Agricultural
Research center for Hokkaido Region, winter stress laboratory;
Hitsujigaoka 1,Toyohira, Sapporo, Hokkaido 062-8555, Japan
(E-mail:akirak@affrc.go.jp, Tel:11-857-9524, Fax:11-859-2178)
FEATURES Location/Qualifiers
source 1..644
/organism="Triticum aestivum"
/db_xref="taxon:4565"
Protein 1..644
/product="fructan:fructan 1-fructosyltransferase"
Region 109..586
/region_name="Glyco_32"
/note="Glycosyl hydrolases family 32; smart00640"
/db_xref="CDD:47917"
Region 109..431
/region_name="Glyco_hydro_32N"
/note="Glycosyl hydrolases family 32 N terminal. This
domain corresponds to the N terminal domain of glycosyl
transferase family 32 which forms a five bladed beta
propeller structure; pfam00251"
/db_xref="CDD:84644"
Region 506..586
/region_name="Glyco_hydro_32C"
/note="Glycosyl hydrolases family 32 C terminal. This
domain corresponds to the C terminal domain of glycosyl
hydrolase family 32. It forms a beta sandwich module;
pfam08244"
/db_xref="CDD:87470"
CDS 1..644
/gene="1-FFT-B"
/coded_by="AB088410.1:58..1992"
ORIGIN
1 messrgilip gtpplpyaye plpsssadan gqedrrtsgg vrwrswatvl avvalvvvaa
61 vfgasrvdrd avvssasata vhgvsgayss hggfpwsnam lgwqrtgyhf qpeknyqndp
121 ngpvyykgwy hffyqhnpgg tgwgniswgh avsrdmvhwr hlplamvpeh wydiegvltg
181 sitvlpdgrv illytgntet faqvtclaea adpsdpllre wvkhpanpvv ypppgigmkd
241 yrdpttawfd nsdntwriii gskndtdhsg ivftyktkdf vsyelipgyl yrgpagtgmy
301 ecidmfavgg grkasdmyns takdvlyvlk essdddrrdy yalgrfdaaa ntwtpidter
361 elgvalrydy grydasksfy dpvkerrivw gyvvetdsws adaakgwanl qsiprtveld
421 ektrtnliqw pveeldtlri nttdlsgitv gagsvvslpl hqtsqldiea sfrinasvie
481 alnevdvsyn ctmtsgaatr galgpfgilv lanaalieqt avyfyvskgl dgvlrthfch
541 delrsthatd vakevvgstv pvldgedfsv rvlvdhsivq sfvmggrmta tsraypteai
601 yaaagvylfn natsatitae klivhdmdss ynriftdadl vvld
¿Qué quiere decir todo esto?
Esta salida está en el formato GenPept, que sigue las mismas reglas que el formato Genbank.. Es un formato con información bastante completa y cómoda para leer. La información se organiza por campos, que son los que aparecen al principio de la línea, como Locus, Definition, Accession, etc.
Los registros de distintas secuencias, pueden tener más o menos campos, algunos diferentes. Depende del tipo de secuencia y de la información disponible. Veamos algunos de los más importantes:
LOCUS: incluye por lo menos el nombre del locus, el largo de la cadena en aminoácidos o pares de bases (bp), la organización de la secuencia -para secuencias de ADN podría ser circular, por ejemplo-, y la fecha de depósito.
DEFINITION: es una descripción de la molécula preparada por los investigadores que depositaron la secuencia.
ACCESSION y VERSION: todas las secuencias depositadas en Genbank tienen un identificador único, como si fuera el DNI. Pero por razones históricas las secuencias tienen más de un identificador único. En este caso hay dos. el Accession, BAE19752, que es la identificación "oficial", y otro el GI, GI:73486685, que también es un identificador único. Version, es el Accession seguido por un punto y un número. Esto permite controlar con qué número de versión estamos trabajando. A veces, los investigadores que depositaron una secuencia, descubren alguna información nueva, o un error, en esos caso, no se crea una entrada nueva, sino que se asigna un número de versión nuevo. Cuando hacemos búsqueda solo por el Accession number (BAE19752), la base de datos nos va a devolver el registro más actual.
KEYWORDS: en este caso no hay ninguna, pero son como las palabras claves de un artículo científico.
SOURCE y ORGANISM: estos campos contienen información sobre la especie de donde se obtuvo esta secuencia y sobre sus relaciones taxonómicos (orden, familia, etc.)
REFERENCE: es un campo compuesto por otros, y es donde se incluye la información bibliográfica de esta secuencia. Puede ser un artículo en una revista científica, una patente u otro tipo de referencia donde se describe la obtención y caracterización de la secuencia.
FEATURES: Es un campo compuesto que contiene información sobre la secuencia. Cada una de sus entradas se organiza en un nombre de subcampo, seguido por la información organizada en ubicación (location) sobre la secuencia y la descripción (qualifiers). Por ejemplo, vemos que entre los aminoácidos 109 a 586 hay una región que se corresponde con un dominio típico de la familia 32 de glicosil-hidrolasas. Otro subcampo importante es el CDS que define que parte corresponde a una proteína final e incluye una referencia al gen que lo codifica.
Para referencia rápida este documento muestra una salida típica y define los principales campos. En este sitio pueden encontrar una descripción más detallada.
La salida anterior se puede presentar en otros formato, además de GenPept. EL formato ASN.1 y los que incluyen las siglas XML no son formatos cómodos para leer, pero son útiles para utilizarlos como entradas de otros programas o para transmitir información entre servidores.
Un formato con el que vamos a trabajar bastante es FASTA. La secuencia anterior en formato FASTA se ve así:
>gi|73486685|dbj|BAE19752.1| fructan:fructan 1-fructosyltransferase [Triticum aestivum]
MESSRGILIPGTPPLPYAYEPLPSSSADANGQEDRRTSGGVRWRSWATVLAVVALVVVAAVFGASRVDRD
AVVSSASATAVHGVSGAYSSHGGFPWSNAMLGWQRTGYHFQPEKNYQNDPNGPVYYKGWYHFFYQHNPGG
TGWGNISWGHAVSRDMVHWRHLPLAMVPEHWYDIEGVLTGSITVLPDGRVILLYTGNTETFAQVTCLAEA
ADPSDPLLREWVKHPANPVVYPPPGIGMKDYRDPTTAWFDNSDNTWRIIIGSKNDTDHSGIVFTYKTKDF
VSYELIPGYLYRGPAGTGMYECIDMFAVGGGRKASDMYNSTAKDVLYVLKESSDDDRRDYYALGRFDAAA
NTWTPIDTERELGVALRYDYGRYDASKSFYDPVKERRIVWGYVVETDSWSADAAKGWANLQSIPRTVELD
EKTRTNLIQWPVEELDTLRINTTDLSGITVGAGSVVSLPLHQTSQLDIEASFRINASVIEALNEVDVSYN
CTMTSGAATRGALGPFGILVLANAALIEQTAVYFYVSKGLDGVLRTHFCHDELRSTHATDVAKEVVGSTV
PVLDGEDFSVRVLVDHSIVQSFVMGGRMTATSRAYPTEAIYAAAGVYLFNNATSATITAEKLIVHDMDSS
YNRIFTDADLVVLD
La primera linea está precedida por un signo mayor ">" y a continuación siguen los identificadores y una breve descripción de la secuencia. En formato FASTA se pierde mucha información, pero es muy compacto y muchos programas o servidores web requieren que las secuencias de entrada estén en formato FASTA, o sus salidas son en ese formato.
Por nuestra localización, en general es más rápido acceder al servidor web del NCBI que a los del DDBJ o del EBI. De todos modos es interesantes visitar alguno de ellos, especialmente del EBI, para ver como organizan la información y los formatos que utilizan. Además, es posible encontrar otros datos o links adicionales a los que ofrece el NCBI. Por ejemplo, la entrada para la secuencia BAE1972 en EBI es http://beta.uniprot.org/uniprot/Q4AEI8
Volver a la página inicial de búsqueda de secuencias [Búsqueda de secuencias]
Continuar a la página siguiente [Descarga de resultados]