1. 特定の配列に対して、類似配列を持っているものをデータベース内において探す
まずは、私たちの研究室から発表した下記の論文を見てください。
Morita et al. (2019) AIMS Microbiol 5, 176-185
この論文はDeinococcus grandisの細胞の桿状構造にかかわるRodZに関するものです。
本バクテリアは大腸菌のRodZのホモログであるWP_058975389を持っているとIntroductionに書いています。
まずは、このIDを
NCBI: National Center for Biotechnology Information
において、検索してそのアミノ酸配列情報を得てください。
その結果、
>WP_058975389.1 DUF4115 domain-containing protein [Deinococcus grandis]
MTSFGAALRQAREGLGLSTQDVALRTKIRGDYLRALEDGNLAALPERTFARSYLTRYARELGLDPQPLLSDFDRALPAPAGSSAATRVTAPVRPARRPGALWAALAVGALLIAGAAAYQFTRGGGSPQTAVTPAAGAAAAGAAGTGSGTAGAATTPQAVQTVRLTVKVTPPGARVYLDNRDLGTAPVLAFPVDARRQAELRVELAGREPLRQAVDVSRSRDLRVTLNPSGKASVLTDAARPATPPRTGTGAKAAGSAAAAPKPTQTPASGVKVTYSGPSWTRVTDAAGRIVFEGTPPAGTVKAFPKGVTIRTGNAAAVSVSVSGGPSAPLGQSGQVVTRTF
というアミノ酸配列を得ることができましたか?
生物工学基礎実験でやりましたが、このファイルの形式をFASTA形式といいます。
この配列を見て、これはRodZで間違いないと判断できますか? おそらく誰もできませんん。
そこで、このアミノ酸配列と類似のアミノ酸配列がどれほど生物に分布しているかを調べます。
もちろん、先ほどのNCBIでBLAST検索しても結構ですが、ここでは、京都大学のデータベースKEGGを使います。
KEGG: Kyoto Encyclopedia of Genes and Genomes
上記のKEGGをクリックして、フロントページを見てください。
下の方にAnalysis toolsとあり、下から2行名にBLAST/FASTAとありますので、BLASTをクリックして、BLAST Searchのサイトに進んでください。
なお、BLASTは局所的に高い類似性を持った配列を検索していますが、より長い配列の類似性を持った配列の検索にはPearsonとLipmanが1988年にProc Natl Acad Sci USA (vol. 85, pp. 2444-2448)に発表したFASTAなどが使われます。
さて、本題に戻ります。そこにSequence dataとあるボックスに上記のFASTAファイルをコピペしてください。
デフォルト(何もしない状態)でBLASTPとKEGG GENESが選択されているはずですので、その確認して後に、右上にあるComputeをクリックして実行してください。
BLASTPはquery(検索にかけたもの、ここではWP_058975389であり、タンパク質)がアミノ酸配列で、データベースもアミノ酸配列の場合です。その他の組み合わせとしては、
BLASTN:queryが塩基配列、データベースが塩基配列のBLAST検索。
BLASTX:queryが塩基配列(に基づくアミノ酸配列)、データベースがアミノ酸配列のBLAST検索。
tBLASTN:queryがアミノ酸配列(に基づく塩基配列)、データベースが塩基配列のBLAST検索。
tBLASTX:queryが塩基配列(に基づくアミノ酸配列)、データベースが塩基配列(に基づくアミノ酸配列)のBLAST検索。
さて、本題に戻ります。しばらくすると、BLAST Search Resutのページなって、結果が表示されます。
この順番がE-value(右端列)の小さなもの順になっていることを確認してください。
すなわち、E-valueが小さいほど、queryに類似構造を持っていることを示します。
もし、このタンパク質が明らかにRodZであれば、RodZと示されたものがリストアップされているはずです。
課題1: この結果、上位3つの情報を書き記し(コピペでよいです)、それを西田まで電子メールで送ってください。また、この結果の中に、RodZと表記されたものはあったでしょうか?たとえなくても西田はこれは(queryにしたものは)RodZであると考えています。なぜ、そのように考えていると思いますか?その意見も述べてください。
送れらたメールを西田が確認して、折り返し、受け取りの報告をします。それを皆さんが受け取って第1回終了です(受け取っていない場合には、連絡してください)。
2. 複数の配列に対する類似配列を一度に検索する
みなさんが今後よく利用するのは、先ほどのNCBIやKEGGのサイトに行って、ウェブ上で類似配列の検索を行うことかと思います。
しかし、現在では、バクテリアの数Mbpのゲノムの完全塩基配列の決定が迅速かつ正確にできるようになってきました。
このことは、1つの遺伝子を決める時代から、ゲノムにコードされているすべての遺伝子情報を得る時代に変化したことを意味しています。
ゲノムワイドな解析の中に、異なる生物のゲノム情報の網羅的な比較があります。
例えば、生物AとBのゲノムにそれぞれ4000遺伝子が存在しているとき、生物Aの1つの遺伝子について、生物Bの4000の遺伝子の中に類縁な遺伝子を探します。
いま、生物Aには4000の遺伝子があるため、BLASTを4000回すれば、生物Bにどれほど類似の遺伝子が存在しているかがわかります。
次に、生物Bの遺伝子についても同じように行って、これも4000回行います。
その結果、生物Aにどれほど類似の遺伝子が存在しているかがわかります。
このような解析は、ウェブ上で行うのはとても大変ですので、BLASTのプログラムを自分のパソコンにダウンロードして、それを自分のパソコンで実施します。
2.1. Deinococcus grandisの全タンパク質情報(全遺伝子情報)を得る
NCBIにおいて、Deinococcus grandisで検索してください。
その結果、ゲノム塩基配列が完了した株は1つですので、Results by databaseのGenomesのところのGenomeの結果が1と出ます(これを書いている時点では)。
これをクリックするとゲノムの様子が記載されたサイトが示されます。
このサイトで、四角で囲まれた中に、Download sequences in FASTA format forのところのproteinをクリックしてください。
そうすると、「開く」か「保存する」かを聞いてきますので、保存としてください。
パソコンのダウンロードのところに、GCF_001485435で始まるファイルがありますか?確認してください。
このファイルは圧縮ファイルですので(プロパティなどで確認してください)、必ず解凍してください。
解凍ソフトが必要なひとはフリーのものがいくつかあるので、それもダウンロードして、上記のファイルを解凍してください。
2.2. Thermus thermophilusの全タンパク質情報(全遺伝子情報)を得る
2.1.と同様にして、Thermus thermophilusの全タンパク質の配列情報を得てください。
今度は、GCF_000091545で始まるファイルがダウンロードできます。
このファイルは圧縮ファイルですので(プロパティなどで確認してください)、必ず解凍してください。
課題2: Deinococcus grandisのゲノムサイズ、GC含量、遺伝子数およびThermus thermophilusのゲノムサイズ、GC含量、遺伝子数を電子メールで送ってください。あと、どうして西田はこれらの2種を選んだのか考察して、意見を書いてください。DNAシーケンサーはATGCの並びを決める機械ですので、遺伝子を同定することはできません。では、遺伝子の位置を決めるには、どのようなことが必要だと考えますか?意見を書いてください(少しわかっているひとへ:バクテリアと真核生物では、遺伝子構造が違っています。それを考慮して記述してください)。
送れらたメールを西田が確認して、折り返し、受け取りの報告をします。それを皆さんが受け取って第2回終了です(受け取っていない場合には、連絡してください)。
2.3. BLASTのダウンロード
上記2つのタンパク質のアミノ酸配列を総当たりでウェブ上でBLAST検索できませんので、個々のパソコンにBLASTをダウンロードします。
NCBIの下記のサイトからダウンロードできます。
http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download
What are the next steps?のところにftp://ftpで始まるクリックするところがありますので、それをクリックしてください。
そうすると、いろいろと用意されていることがわかると思います。
もし、あなたのパソコンがWindowsであれば、win64.exeで終わっているものを選択してください。
[以降、Windowsのパソコンの場合を想定して記述します]
実行か保存かを聞いてきますので、保存としてください。
ダウンロードのところに圧縮ファイルができますので、それを解凍してください。
解凍の際、Windowsが拒否してきた場合には、「詳細」をクリックして、実行を表記し、実行してください。
通常、解凍が終了すると、Windows (C:)の中のProgram Filesフォルダ内にNCBIとフォルダがつくられます。
[以降、Windows (C:)となっている想定で記述します]
NCBIフォルダを開けると、 blast-2.10.0+フォルダがあり、その中にbinフォルダがあり、そこにプログラムファイルが入っています。
もし、どこにファイルがあるかどうかわからない場合には、C:のフォルダ内の検索を「NCBI」あるいは「blast」で行って見つけ出してください。
プログラムの内容を確認してください。blastnやblastpなどのファイルがあればOKです。
次に、C:ファルダ内にblastと名前をつけたフォルダをつくってください(中身は空の状態)。
次に、先ほどのbinのフォルダ内にあるファイルをすべて選択してコピーして、先ほどの空のblastフォルダ内にペーストしてください。
プログラムとファイルの検索において、cmdと打ち込み、コマンドプロンプトを起動してください。
ここで先ほどのフォルダ(ディレクトリ)に移ります。
cd c:/blast
ディレクトリの内容を確認するには、
dir
としてください。先ほどコピペしたものが存在している場合にOKです。
2.4. ファイルのフォーマット
プログラムを実行するためには、ファイルをフォーマット化する必要があります。
そのためには、先に作ったC:/blastのフォルダにDeinococcus grandisとThemus thermophilusの全アミノ酸配列が載っているファイル(GCF_001485435で始まるファイルとGCF_000091545で始まるファイル)を入れてください。
コマンドプロンプトにおいて、dirとしてファイルの存在し、その末尾がfaaとなっていることを確認してください。
もし、末尾がfaa.gzであれば、圧縮されたままですので、解凍して、入れなおしてください。
フォーマットを行うプログラムがmakeblastdbです。
その実行を行う前に空き容量を調べてください。
デバイスとドライブのところにWindows (C:)と表記されていると思いますが、その空き容量を見てください(あるいはC:を選択して右クリックでのプロパティで確認してください)。
空き容量が2 TB程度あれば、下記のフォーマット実行を2つ連続で可能ですが、もし、0.5~1 TB程度であれば、フォーマットの実行を2回に分けて、下記にあるファイル削除の作業を行ってください。
おそらく、0.5 TB以下しか空き容量がなければ、フォーマットを実行できないと思います。
その場合には、その旨、電子メールで報告してください(コマンドプロンプトにはどのようなメッセージが出ましたか?それを報告してください)。
また、この2. を完了することができませんので、課題3および4もできません。
これはパソコンの容量の問題ですので、遠隔ではどうしようもありません。
電子メールでの連絡を受け次第、折り返し、異なる実習(このサイトの左上にある「ヌクレオソーム解析」の下段にある【学生実験予備】)を行っていただく旨のメールを送りますので、それに従って行ってください(連絡があった際にメールで必要ファイルを送ります。それがないとできません)。
なお、フォーマットを実行した場合、上記のような大きなファイルが作成されるため、フォルダごと消去するなどの後始末をして、予備の方へ変えてください。
ただ、外付けのハードディスクなどがある場合には、そちらに作業場所を移すことによって回避できるかもしれません。
Deinococcus grandisとThemus thermophilusの全アミノ酸配列が載っているファイルをフォーマット化するには下記を実行してください(下記のそれぞれをコピーしてコマンドプロンプト上でペースト、実行できます)。
makeblastdb -in GCF_001485435.1_ASM148543v1_protein.faa -dbtype prot -hash_index
makeblastdb -in GCF_000091545.1_ASM9154v1_protein.faa -dbtype prot -hash_index
これら2つのファイルのフォーマットに1Tbの容量が増加します。
それだけの余裕がないパソコンでは、次のようにしてください。
まず、1つだけのファイルのフォーマットを行ってください。
その後、C:/blastのフォルダ内を見てください。
生成したファイルで巨大なものは、末尾が.pdbと.ptfの2つのファイルであることがわかります(それぞれのサイズが約300Gb)。
そこで、.ptfのファイルを削除してください。
その次にもう1つのファイルのフォーマットを同様にして、その結果から.ptfのファイルを削除してください。
2.5. MultiFASTAファイル間でのBLASTPの実行
それでは、実際にやってみましょう。
データベース(比較される対象;-db)としてDeinococcus grandisの全タンパク質、query(データベースに比較するもの;-query)としてThermus thermophilusの全タンパク質、トップヒットだけ(-max_target_seqs 1)、ただしE-valueの閾値(-evalue)を0.001にして、結果(-out)はタブ区切り(-outfmt 6)でresult.txtに書き出しの実行文は下記となります(打ち込みに自信のないひとは、コピーしてコマンドプロンプトでペーストできます)。
blastp -db GCF_001485435.1_ASM148543v1_protein.faa -query GCF_000091545.1_ASM9154v1_protein.faa -max_target_seqs 1 -evalue 0.001 -outfmt 6 -out result.txt
さすがに少し時間がかかり、Warningの表示が出てますが、終わるまで待ってください。コマンドプロンプトの点滅が終われば、C:/blastのフォルダ内にresult.txtのファイルが作成されています。
わざわざタブ区切りにしたのは、Excelで見ることができるようにです。result.txtをExcelで開くと見やすいですね。
-max_target_seqsで上位いくつのデータを取るかを指定できますが、-num_descriptionsによっても上位いくつかを指定できます。
データベースに複数のファイルを対象とする場合には、-db "data1 data2 data3"などとしてできます。
また、コマンドプロンプトを終えるときは、exitとしてください。
課題3: この結果、いくつのペアができましたか?次に、データベースとqueryを入れ替えるとどうなるか実行してください。それらの数を電子メールで送ってください。また、どうしてそのような結果になるかについて考察してください。
課題4: 1.で示したDeinococcus grandisのRodZと類似タンパク質はThermus thermophilusにありましたか?もし、あった場合は、そのタンパク質IDを示してください。
送れらたメールを西田が確認して、折り返し、受け取りの報告をします。それを皆さんが受け取って第3,4回終了です(受け取っていない場合には、連絡してください)。
3. マルチプルアライメント
類似配列検索では、queryに対する類似度が高いものから順に整理されています。しかし、query以外の類似配列間の関係(例えば、queryと2番目に高い類似度の配列と3番目に高い類似度の配列の関係)については、BLASTの結果だけではわかりません。そこで、複数の類似配列を多重に比較して並べること(マルチプルアライメント)が必要となります。
1988年、HigginsとSharpによってGene (vol. 73, pp. 237-244)に発表されたCLUSTAL、2004年、EdgarによってNucleic Acids Res (vol. 32, pp. 1792-1787)に発表されたMUSCLEはマルチプルアライメントのプログラムとして広く普及しています。
実際に類似性検索結果からマルチプルアライメントを作成してみましょう。
先のDeinococcus grandisのRodZのアミノ酸配列を使いましょう。
上記のFASTAをコピーして、NCBIの類似配列検索のサイト
https://blast.ncbi.nlm.nih.gov/Blast.cgi
を開き、Protein BLASTをクリックして、クリーム色のところにペーストしてください。
デフォルトでは、データベースがNon-redundant protein sequences (nr)となっていることを確認して、下のBLASTをクリックしてください。
じばらく時間がたったのち、結果が表記されます。
デフォルトでは上位100が選択されていると思います。
この結果は、1.で行ったKEGGでの結果と同じでしたか?違っていましたか?
Descriptionsが開いているかと思います。
一度select allを解除して、その後に上位10の配列を選択してください。
次にselect allの行の右端にMultiple alignmentとありますので、これをクリックしてマルチプルアライメントを得てください。
その結果は、Graphic Overview、Descriptions、Alignmentから成り立っています。
Alignmentにおいて、Conservation SettingをIdentityとすると、完全に一致したサイトが赤色、その他の保存性が高いサイトが青色で表記されます。
そこで、短い配列が入っている場合、欠落(-)の表記が長く続いていることがわかります。
その場合、マルチプルアライメントの表記のそれぞれのIDの左にクリック表記の小さいボックスがあるので、それを外してください。
その上で、Re-alignをクリックして、アライメントをやり直してください。
そこで、再度、Conservation SettingをIdentityとして、どのサイトが保存度が高いか確認してください。
このマルチプルアライメントに、進化系統上離れたものを入れると、どこか進化的に保存されてきたかがわかります。
課題5: このマルチプルアライメントの赤色と青色に表記されている画面をPrint Screenあるいはスマホなどで写真にとって、それを電子メール添付で送ってください。このマルチプルアライメントは類似度が高いもので構成されていますが、ここに類似度が低いものが入ると赤色や青色のサイトの数はどうなると考えられますか、答えてください。
送れらたメールを西田が確認して、折り返し、受け取りの報告をします。それを皆さんが受け取って西田分終了です(受け取っていない場合には、連絡してください)。