Оршил
Дарааллын харьцуулалт нь биоинформатикийн үндсэн асуудлуудын нэг юм. Харьцуулалтаас аль хэсэг дараалал хадгалагдаж аль хэсэг нь хувьсаж байгаа талаарх мэдээлэл авна. Биомолекулын дарааллын харьцуулалт нь дарааллуудын хооронд функц болон бүтэц ба үүргийн төсөөтэй байдал хайх, цаашлаад эволюцийн холбоог тогтоох филогенетик аргуудын үндэс болдог. Хос болон олон дарааллын харьцуулалт гэсэн хоёр төрлийн харьцуулалт байдаг. Хос дарааллыг цэгэн матриц болон динамик програмчлалын алгоритм гэсэн хоёр аргаар харьцуулж болдог. Энэ хичээлээр бид богино дараалал дээр гар аргаар хос дарааллын харьцуулалт хийн үндсэн ойлголт авна. Цаашлаад Dotlet програмыг ашиглан урт дараалалд анализ хийнэ.
Дасгал 1. Dotlet програмаар уургийн дараалалд анализ хийх
А. Давтагдсан домейныг таних
Дараах холбоосоор дамжин дараалал харьцуулах хэрэгслийг татаж ав.
ftp://ftp.sanger.ac.uk/pub/resources/software/seqtools/PRODUCTION/seqtools-4.39.3.tar.gz
Дараа нь terminal цонхонд дараах коммандуудыг хийж шаардлагатай програмуудыг суулга.
sudo apt-get install libcurl4-gnutls-dev
sudo apt-get install libgtk-2.0-dev
sudo apt-get install libglib-2.0-dev
sudo apt-get install libreadline6-dev
sudo apt-get install libsqlite3-dev
Татаж авсан фолдертоо очиж
tar -xf seqtools-4.39.3.tar.gz
cd seqtools-4.39.3
./configure
make
make install
Цэгэн матриц програмыг ашиглан дараах дарааллын өөрийг нь өөртэй нь харьцуул. Энэ дарааллын тухай өөрийн бодлыг бичнэ үү (BLOSUM62 матрицыг ашиглана). Мөн үр дүнгийн хуудсанд цонхны хэмжээс болон хар цагааны хэмжээг тохируулах шаардлагатай. http://myhits.isb-sib.ch/cgi-bin/dotlet
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCTGLNVDCSHRGLTSVPRKISADVERLELQGN NLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVITTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRA LRLSDNPFACDCHLSWLSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTLPDDTTDVRLEQN FITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLLLNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKT VHLAKNPFICDCNLRWLADYLHKNPIESTGARCESPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLND NELGRISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFEHLNSLTSLNLASNPFNCNCHLAWFAE CVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCTCTGTVVACSRNQLKEIPRGIPAESTELYLESNEIEQIHYERIRHLRSLTRLDLSNN QITILSNYTFANLTKLSTLIISYNKLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQMKDKLILST PSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNATCTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQ NNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAKCMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGH NMISMMYPQTSPCQNHECKHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAVELFNGRIRVS YDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDPAQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQ QKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLENKCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDC RSRQPLKYAKCVGGCGNQCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
Б. Домейны бүрдлийг таних
BLAST програмыг ашиглан уургийн бүтцийн өгөгдлийн сангаас (Хайлтын өгөгдлийн санг “Protein Data Bank proteins (pdb)”-г сонгоно) хайлт хийж ямар уургийн дараалал ба ямар домейнууд агуулж байгааг тодорхойл.
BLAST програмын харьцуулалтын хэсгээс хамгийн өндөр оноотой үр дүн хэдэн хувь төстэй байна вэ? Бидний сонирхож буй дараалалтай хомологи дараалал мөн үү.
Дасгал 2. Эксон ба интроны хэсгийг таних
Энэ хэсэгт генийн дараалал дахь эксон ба интроны хэсгийг таних юм. Дадлага 3-ыг хийхэд татаж авсан HFE генийн дараалал болон тухайн генээр кодлогдсон HFE уургийн дарааллыг харьцуулж эксон ба интроны хэсгийг таних юм. Дарааллыг дахин татаж авч алхам бүрээр зааварлах учраас Дадлага 3-ыг заавал хийсэн байх шаардлагагүй.
А. Дарааллуудыг татаж авах
NCBI-ын Gene өгөгдлийн сангаас “HFE” гэсэн түлхүүр үгээр хайлт хий. 3077 дугаартай генийн мэдээллийг нээ. Genomic Context хэсэг дэх NC_000006.11 (26087422..26096438) нуклеотидийн дарааллын дугаар болон байрлал нь HFE генийн хэсэг юм. “Genomic regions, transcripts, and products” хэсэгт байрлах Genomic Sequence хэсгийг NC_000006.11 дарааллыг сонгож FASTA форматын холбоосыг дарж дарааллын хэсгийг дэлгэцэнд гарга. Ctrl+A дарж бүх дарааллыг сонгож Ctrl + C дарж хуул. Компьютер дээрээ өөрийн хавтсанд HFE gene гэсэн нэртэй текст файл үүсгэж хуулсан дарааллаа хадгалж ав.
Дараа нь генийн мэдээллийн хуудаснаас Related Information баганаас Protein холбоосоор дамжиж HFE генээр кодлогддог уургийн дарааллуудыг гарга. Энд “hereditary hemochromatosis protein isoform 12 precursor [Homo sapiens]” нэртэй уургийн мэдээллийн хуудсанд шилж. FASTA холбоосоор дамжиж уургийн дарааллыг HFE protein гэсэн файл үүсгэн хадгалж ав.
Б. Дарааллуудыг харьцуулж аксон интроны хэсгийг таних
Dotlet програмыг нээж оролтын дарааллыг хуул. Генийн дарааллын нэрийг “gene” ба уургийн дарааллыг “protein” гэж нэр өгвөл зохистой. Хоёр дарааллыг харьцуулж хар цагаан, дэлгэцийн хэмжээг тохируулж эксон интроны хэсгийг ялгаж харуул.
HFE уураг хэдэн эксоноор кодлогдсон байна вэ?