Дарааллын харьцуулат ба удам төрлийн мод байгуулах
Дасгал-1.0. NCBI-аас мэдээлэл хайж сурах
Үүний тулд веб браузерыг ажиллуулж https://www.ncbi.nlm.nih.gov/ холбоосоор NCBI-ийн өгөдлийн сангуудаас хайлт хийх Entrez буюу хайлтын хуудас нээ.
Асуулт 1. Coronavirus гэсэн түлхүүр үгээр хайлт хийвэл NCBI-ийн хэдэн өгөгдлийн сангаас тухайн түлхүүр үгтэй мэдээлэл олдож байна вэ?
Хариултыг бич:
Асуулт 2. Protein (уургийн өгөглийн сан) болон Identical protein groups өгөгдлийн сангуудад тус тус хэдэн ширхэг мэдээлэл илэрч байна вэ?
Хариултыг бич:
(Хоёр өгөгдлийн сангийн харгалзах хариултыг дундаа таслалтайгаар бичнэ үү. Жишээ нь: 500000, 30000.):
Дасгал-1.1. Дарааллуудыг татаж авах
Энэ хэсгээр NCBI-ийн өгөгдлийн сангаас мэдээллийг хайх, шаардлагтай мэдээллийг нарийсган олж авах, эцэст нь шаардлагатай уургийн дарааллуудыг татаж авч сурна. Үүний тулд веб браузерт https://www.ncbi.nlm.nih.gov/protein/ холбоосыг ачаалал. Энэ нь NCBI-ын “Protein” буюу уургийн мэдээллийг хайх дэлгэцэд шилжинэ.
Хайлтын түлхүүр үгийг дараах байдлаар оруулан Search товчийг дар.
surface glycoprotein[All Fields] AND "Severe acute respiratory syndrome coronavirus 2"[Organism]
Асуулт 3. Уг хайлттай холбоотой хэдэн мэдээлэл “Protein” өгөгдлийн сангаас олдож байна вэ?
Хариултыг оруул:
Хайлтын үр дүнгийн хуудсын дээд хэсэгт байрлах хайрцагт Identical Protein Groups өгөгдлийн санд байгаа мэдээллийн тоог бичсэн байгаа. Уургийн адил группүүдийн өгөгдлийн санд агуулагдах мэдээллийн тоо.
See the results of this search (..... items) in our new Identical Protein Groups database.
Асуулт 4. Хэдэн ширхэг мэдээлэл байна вэ?
Identical Protein Groups өгөгдлийн сан нь адил уургуудыг нэг групп болгоод тэдгээрийн төлөөлөгчдийн мэдээллийг хадгалсан өгөгдлийн сан юм. Энэ өгөгдлийн сангаас хайснаар мэдээллийн давхардлыг багасгах юм. “Results of this search (…. items)” бичгийн холбоос дээр дарвал эхний хайлттай харьцуулахад харьцангуй цөөн мэдээлэл гарч ирнэ. Гэвч энэ нь дараалалд анализ хийж, харьцуулахад хангалттай цөөн биш (олон сая мэдээлэл).Тиймээс дэлгэцийн баруун талд байрлах хайлтыг нарийсгах туслах баганан менюгээс “Protein count bins” туслах зэсний “>1000” гэсэн холбоосыг сонгож үр дүнгийн хуудас шинэчлэгдэнэ. Энэ нь 1000 олон тооны уураг агуулж байгаа группүүдийн төлөөлөгчдийн мэдээллийг харуулна.
Зураг 1.
Асуулт 5. Хэдэн ширхэг уургийн мэдээлэл гарч ирсэн бэ?
Хариултыг оруул:
Дэлгэцийн дээд талд байрлах Summary 20 per page нь дэлгэцэнд харуулах мэдээллийн үнсэн утга бөгөөд үүнийг 200 болгож өөгчил. Дараа нь дэлгэцийн баруун дээд хэсэгт байрлах “Send to:” холбоос дээр дарж Choose Destination дээр File-ыг сонгож, Format хэсэгт FASTA -ийг сонгож Create File товчийг дарна.
Үр дүнд нь sequence.fasta гэсэн файл автоматаар татагдана. Эсвэл
Дараа нь компьютерийн дэлгэц дээр CoV2_spike нэртэй фолдер үүсгэж өмнө татаж авсан sequence.fasta файлыг spike_raw.fasta нэрээр уг фолдер дотор хадгал.
Дасагал-1.2. Дарааллуудыг шалгаж, өгөгдлийг цэвэрлэх
Компьютерийн START менюгээс Notepad++ программыг ажиллуул. Дараах цонх дэлгэцэнд гарч ирнэ.
Үүний дараа File -> Open дарж өмнөх дасгалт татаж авч, бэлтгэсэн spike_raw.fasta файлыг сонгож open дар.
Энэ алхмын дараа таны татаж авсан бүх дараалал FASTA форматаар текст файл хэлбэрээр дэлгэсэнд гарч ирнэ. Энэ формат нь биологийн молекулын дарааллын формат бөгөөд мэдээллийн эхний мөр “>” тэмдэгтээр эхэлнэ. Форматын тэмдгийн араас тухай уургийн дарааллын ID болон нэр бичигдсэн байна. 2 дахь мөрөөс эхлэн тухай уургийн амин хүчлийн дараалал байна. Өмнө дасгалаар бид 100 гаруй дарааллыг татаж авсан байгаа бөгөөд тэр дунд дарааллын тодорхой хэсэг нь мэдэгдэхгүй буюу дараалал дундаа “XXXXXXX…” гэсэн хэсгийг агуулж байгаа.
Уургийн амин хүчлийн нэг үсгийн тэмдгэлгээнд Х гэсэн тэмдгэлгээтэй амин хүчлийн нэр байдаггүй. Тиймээс дараалал дундаа зөвхөн нэг ба түүнээс олон “X” тэмдэгт агуулж байвал тухайн дарааллыг хасна. Жишээ нь дараах зурагт зөвхөн ганц “X” гэсэн түлхүүр үгээр хайлт хийж QWP94412.1 кодтой уургийн дарааллыг хэсэгт байгааг харуулсан байна. Тиймээс энэ дарааллыг хасна.
Асуулт 6. Дарааллын нэрэндээ “partial” гэсэн үггүй, дараалалдаа “X” гэсэн тэмдэгт агуулаагүй хэдэн ширхэг уургийн мэдээлэл гарч ирсэн бэ? (Жич: Notepad++ програмын “Ctrl+F” дарж “>” тэмдэгт тухайн файлд хэд байгааг тоолуулснаар амархан мэдэх боломжтой.)
Хариултыг оруул:
Дасгал 2. Өөрөө хийх дасгал
1. Хүснэгт 2-т өгсөн хандалтын дугаартай 3 дарааллыг NCBI-ын уургийн өгөгдлийн сангаас татаж ав (бүх амин хүчлийг).
2. Файлын нэр болон FASTA дарааллын нэрийг тохирох байдлаар өөрчил. Жишээ нь: Bat_coronavirus_Spike
3. Дээрх гурван уургийн рецепторт холбогдогч домэйны дарааллыг NCBI-ын уургийн өгөгдлийн сангаас татаж ав. RBD
4. Файлын нэр болон FASTA дарааллын нэрийг тохирох байдлаар өөрчил. Жишээ нь: Bat_coronavirus_Spike_RBD
Оршил
2019 оны сүүлээс эхлэн коронавирусын халдвараар COVID-19-ийн халдвар дэлхий даяар тархаад байгаа. Эрдэмтэд КОВИД-19 цар тахлыг үүсгэгч SARS-CoV-2 вирус нь сарьсан багваахайгаас панголиноор дамжиж хүнд халдварласан байж болох таамаглал гаргасан. Тэгвэл энэ дасгал ажлаар тус таамаглалыг шалгах юм.
SARS-CoV-2 вирусын халдварлалтад чухал үүрэгтэй уураг нь спайк гликопротеин (Spike Glycoprotein) юм. Энэ нь коронавирусын мембраны уураг бөгөөд үүнийг мөн гадаргуугийн гликопротеин гэж нэрлэдэг. Энэ уураг нь эзэн организмын эсийн Angiotensin converting Enzyme 2 (ACE2) уурагтай холбогдож, вирусын генетикийн материалыг эсэд нэвтрүүлэхэд чухал үүрэг гүйцэтгэдэг. Коронавирусын спайк уургийн рецепторт холбогдогч домеин нь вирусыг эзэн эстэй холбогдоход чухал үүрэгтэй.
Энэ дадлагын ажлаар сарьсан багваахайн, панголины, болон хүний SARS-CoV-2 коронавирусын спайк уургийн бүтэн дарааллууд болон рецепторт холбогдогч домеины (receptor-binding domain) дарааллуудыг National Center for Biotechnology Information (NCBI) -ийн “Protein” буюу уургийн өгөгдлийн сангаас татан авч, харьцуулалт хийж, удам төрлийн мод байгуулна. Эцэст нь коронавирусын зарим хувилбарын хоорондын удам төрлийн холбооны талаар дүгнэлт хийнэ.
Татаж авах дарааллуудын эзэн организмын нэр ба коронавирусын спайк уургийн хандалтын дугаарыг (Accession number) болон татаж авсан дарааллыг нэрлэвэл зохих файлын нэрийг Хүснэгт 2-т өгөв. Хандалтын дугаар нь уураг бүрийн хувьд ялгаатай байдаг.
Хүснэгт 2. Дасгалд шаардлагатай дарааллын жагсаалт. Коронавирусын эзэн организмын нэр (шинжлэх ухааны бус нэр), хандалтын дугаар, татаж авсан дарааллын файлыг нэрлэх боломжит нэрсийг өгөв.
1.
Cарьсан багваахай
QHR63300
Bat_coronavirus_Spike
2.
Панголин
QIG55945
Pangolin_coronavirus_Spike
3.
Хүн (SARS-CoV-2)
YP_009724390
Human_SARS-CoV-2_Spike
Дасгал. Олон дарааллын харьцуулалт хийж, удам төрлийн мод байгуулах
MEGA11 програмыг ашиглан олон дарааллын харьцуулалт (multiple sequence alignment) хийнэ. Энэ нь Дасгал 1-ын явцад бэлтгэсэн 3 дарааллыг нэг зэрэг харьцуулж, тухайн дарааллуудын хувьд тохирч байгаа байрлалуудыг зэрэгцүүлнэ. Үүний тулд:
1. MEGA11 програмыг ажиллуул. Уг програмын үндсэн цонх буюу Molecular Evolutionary Genetics Analysis нэртэй цонх нээгдэнэ.
2. MEGA11 програмын Align цэсийг дарж Edit/Build Аlignment товчийг дарснаар Alignment Editor цонхонд гарч ирнэ.
3. Уг цонхны Create New Alignment -ыг сонгож ОК товчийг дарж, дараа нь өгөгдлийн төрлийн уураг буюу “Protein” гэсэн сонголтыг хий.
4. Alignment Explorer цонх шинээр нээгдэх ба энэ цонхны Edit цэсээс Insert Sequence From File -ыг дарж, гарч ирэх цонхонд өөрийн ажлын фолдер дахь (Full_length) 3 дарааллуудыг бүгдийг нь (компьютерын гарны Ctrl+A товчийг дарж) сонгоод Open товчийг дарна. Ингэснээр Alignment Explorer хуудсанд таны сонирхож буй бүх дараалал нээгдэнэ.
5. Alignment Explorer цонхны төгсгөлд хоосон Sequence 1 гэсэн нэртэй мөр үүссэн байна. Энэ мөрний арилгана. Ингэхдээ Sequence 1 гэсэн нэрийг дарж идэвхжүүлсний дараа компьютерын хулганын баруун товчийг дарж урсах цэсээс Delete -ийг сонгоно. Ингэснээр олон дарааллыг харьцуулахад бэлэн болно.
6. Alignment Explorer цонхны Alignment цэсээс Align by CLUSTALW дар. ClustalW Options цонх гарна. Энэ цонхонд бид харьцуулалт хий параметрүүдийг тохируулах бөгөөд энэ удаа програмын санал болгож буй үндсэн тохиргоог сонгох буюу шууд ОК товчийг дарна. Харьцуулалт хийсний дараа амин хүчлийн тэмдэглэгээний дээд талд байрлах * тэмдэгт эрс их болно.
АСУУЛТ 7. Сонирхож буй гурван дарааллын амин хүчил ямар үед * тэмдэг гарч байна вэ?
7. Alignment Explorer цонхны Data цэсний Export Alignment-ийг дарж MEGA Format -ыг сонгоход, Save file as нэртэй цонх гарна. Энэ цонхонд Дасгал 1-ийн явцад өөрийн үүсгэсэн Full_length фолдерыг тохируулан, File name: хэсэгт Аlignment_Full нэрийг бичиж Save товчийг дар. Title гэсэн цонх гарах ба Input title of the data хэсэгт Spike glycoproteins гэсэн гарчиг өгч OK товчийг дарна. Энэ нь дараагийн алхмын оролтын файл болно. Олон дарааллыг харьцуулсан алхмуудыг амжилттай хийсэн тохиолдолд Alignment Explorer цонхыг хааж болно.
8. Дараа нь MEGA програмын үндсэн цонхны DATA цэсийг дарж, Open a File/Session -ыг дарж Open a File цонх нээгдэх ба өмнөх алхамд хадгалсан Аlignment_Full файлыг сонгож Open товчийг дарна. Харьцуулалт хийсэн өгөгдөл програмд орж ирэх ба TA үсэгтэй дүрс (icon) гарч ирнэ.
9. Дараа нь MEGA програмын үндсэн цонхны PHYLOGENY цэсийг дарж, Construct/Test UPGMA Tree ... -ыг сонго. Would you like to use the current active data? гэсэн асуулт гарах ба Yes товчийг дарна. Үүний дараа Analysis Preference цонх гарах ба ОК товчийг дар.
10. Үр дүн нь дээрх гурван спайк уургуудын бүтэн дарааллын хувьд байгуулсан удам төрлийн мод зурагдана. Tree Explorer цонхны Image цэсийг дарж Save as BMP file-ыг дарж өөрийн үүсгэсэн Full_length фолдертоо удам төрлийн модыг зургаар хадгал.
АСУУЛТ 8. Спайк уургийн бүтэн дарааллаар байгуулсан удам төрлийн модыг зургаар дүрсэлнэ үү.
АСУУЛТ 9. Удам төрлийн модыг тайлбарлан бич.
Спайк уургийн бүтэн дарааллаар нь удам төрлийн мод байгуулахад аль 2 организмын уургууд илүү ойрын төрөл байж болох талаар дүгнэлт хийсэн байна.
Дасгал. Спайк уургийн рецепторт холбогдогч домеины дарааллаар удам төрлийн мод байгуулах
1. Дасгал 1.2.-д компьютерын Desktop-ын Data_bioinformatics фолдер RBD нэртэй фолдерыг өөрийн үүсгэсэн Coronavirus_sequence_analysis_XX фолдерт хуулсан. Энэ фолдер гурван организмын коронавирусын спайк уургийн рецепторт холбогдогч домеины дарааллыг агуулж байгаа. Уг RBD фолдерыг өөрийн ажлын фолдерт хуулсан эсэхийг шалга.
2. Дасгал 2-ын хийсэн алхмуудын дагуу гурван организмын спайк уургийн рецепторт холбогдогч домеины удам төрлийн мод байгуул. Зурагдсан модыг ажлын фолдер дотор зургаар хадгал.
АСУУЛТ 10. Рецепторт холбогдогч домеины дарааллаар байгуулсан удам төрлийн модыг зургаар дүрсэлнэ үү.
АСУУЛТ 11. Рецепторт холбогдогч домеины дарааллаар байгуулсан удам төрлийн модыг тайлбарлан бич.
Спайк уургийн рецепторт холбогдогч домеины дарааллаар удам төрлийн мод байгуулахад аль 2 организмын спайк уургууд илүү ойрын төрөл болох талаар дүгнэлт хийсэн байна.
АСУУЛТ 12. Ямар учраас судлаачид SARS-CoV-2 коронавирус сарьсан багваахайгаас панголиноор дамжиж хүнд халдварласан гэж үзэж байгаа талаар өөрийг дүгнэлтийг бич. Дүгнэлтээ дээр байгуулсан хоёр удам төрлийн модыг ашиглан тайлбарлаж болно.