0. はじめに
類似配列検索の結果だけでは、query以外の配列の関係については不明なためにマルチプルアライメントを作成しました。
しかし、このマルチプルアライメントだけではそれぞれの配列の関係を知ることは困難であるか、あるいはできません。
そこで、このマルチプルアライメントに基づき系統樹を作成し、その系統樹によってそれぞれの配列間の関係が見えてきます。
配列間の違いに基づく行列(距離行列、配列の違いを進化距離に換えて比較するためこのように呼ばれます)を基に系統樹を作成する方法と、マルチプルアライメントにおける各サイト情報を基に系統樹を作成する方法の2つに大別されます。
前者では1987年、斎藤と根井によってMol Biol Evol (vol. 4, pp. 406-425)に発表されたNJ (neighbor-joining)法、後者では最節約法、最尤法などがあります。
1950年代のSangerによるインシュリンのアミノ酸配列決定や1960年代のMargoliashによるシトクロムcおよびZunckerkandlとPaulingによるヘモグロビンのアミノ酸配列決定によりアミノ酸配列を比較する研究がスタートしたと言えます。
1968年、木村によってNature (vol. 217, pp. 624-626)に発表された分子進化の中立説は分子時計の概念の中核となっています。
分子進化の中立説(国立遺伝学研究所)
なお、系統樹において枝ぶりの信頼性の評価にはブートストラップ法が用いられることが普及しています。
ブートストラップ法はEfronが考えた統計解析法ですが、1985年、Felsensteinが系統解析への適用としてEvolution (vol. 39, pp. 783-791)に発表しています。
ブートストラップ法では、系統解析に用いるマルチプルアライメントにおいて各サイト情報を独立に考えます。
その各サイト情報を復元無作為抽出により、サイト数回繰り返し、仮想マルチプルアライメントを作ります。
すなわち、マルチプルアライメントが1000アミノ酸サイト情報から成り立っている場合、1000回の復元無作為抽出により、1000サイトからなるマルチプルアライメントができます。
この作業を1000回行えば、1000の仮想マルチプルアライメントが作成できます。
これら1000のマルチプルアライメントに基づく系統樹を1000個作成し、オリジナルにおける各枝がいくつ再現しているかをカウントし、その枝の信頼性とします。
それではMEGAを使って系統樹を作成しましょう。
Molecular Evolutionary Genetics Analysis (MEGA)
以下、最新バージョンでの対応をしているかどうかをチェックしておりません。対応していないところがあるかもしれません・・・
なぜチェックしないのか?ということですが、「分子系統解析」を授業で行う予定がないからです。
UPGMAから始まり、NJの方法を手計算で納得しながら進めたり、
100回のブートストラップによって生成した系統樹を100枚プリントアウトして、手と目をつかって数値を出したり、
最尤法のやり方に苦戦したり、ということを経験をした一人として、MEGAに感銘を受けました。
MEGAに備わっているマニュアルもますます充実し、それを読めばすべてわかるようになっています。
ですので、講義においてMEGAを紹介はするかもしれませんが、下記のようなことを実際に示す必要がなくなってきたという感じです。
自分の思い出として残している程度ですね。
1. ファイルのフォーマット変換
マルチプルアライメントで保存したファイルを使用します。
このファイルをデスクトップなど自分の分かるところに置いてください。
次にMEGAを起動し、Fileをクリックし、Convert File Format to MEGAを選んでください。
Select File and Formatが表示されたところで、clustalw.aln、Data Format: .aln (CLUSTAL)として、OKをクリックしてください。
これによって、Clustal WのファイルをMEGAのファイルへ変換します。
名前を付けて保存が表記されたところで、名前を付けてください(例えば、YBR115C.megなど)。
この際にファイルのチェックをしてください。
今回のデータでは末尾に余計なものが付いていますので、そちらを削除して、再保存してください。
2. マルチプルアライメントの確認
MEGAのファイルYBR115Cが作成できていることを確認してください。
そちらを開いてください。
Input Dataの内容を聞いてきますので、Protein Sequencesを選んで、OKをクリックしてください。
マルチプルアライメントが開いていることを確認してください。
Displayをクリックし、Color Cellsを選択するとカラフルになり、アライメントの状況を確認し易くなります。
3. NJ法で系統樹作成
Phylogenyをクリックし、Construct/Test Neighbor-joining Treeを選択してください。
Active Dataを使うかを訊いてきますので、Yesをクリックしてください。
解析の条件を設定できる画面が表示されますので、ここで条件を設定します。
Test of Phylogenyでは、前述のBootstrap methodを選択し、回数は1000とします。
Model/Methodではアミノ酸配列の違いをどのように補正するかについて選びます。
とりあえず、ここではPoisson modelを選択します。
Rates among Sitesではサイト毎の置換の違いを考慮するかどうかを選びます。
考慮する場合にはGamma Distributed (G)を選択し、Gamma Parameterを決めてください(とりあえず、ここでは1とします)。
Gaps/Missing Data TreatmentではComplete deletionを選んでください。
条件を決定して後、Computeをクリックしてください。
その結果、NJ系統樹が表記されます。
先ほど設定した条件を見る際には、系統樹の画面において i をクリックしてください。
系統樹を保存したい場合には、Imageをクリックして、保存条件を選んでください。
4. 最節約法で系統樹作成
Phylogenyをクリックし、Construct/Test Maximum Parsimony Tree(s)を選択してください。
Active Dataを使うかを訊いてきますので、Yesをクリックしてください。
解析の条件を設定できる画面が表示されますので、ここで条件を設定します。
Test of Phylogenyでは、Bootstrap methodを選択し、回数は1000とします。
最節約法では置換モデルは存在しません。
Rates among Sitesではサイト毎の置換の違いを考慮するかどうかを選びます。
Gaps/Missing Data TreatmentではComplete deletionを選んでください。
Tree Inference Optionsでは、とりあえずMP Search MethodにClose-Neighbor-Interchange on Random Trees、No. of Initial Treesに10、MP Search levelに2としてください。
条件を決定して後、Computeをクリックしてください。
その結果、最節約(MP)系統樹が表記されます。
先ほど設定した条件を見る際には、系統樹の画面において i をクリックしてください。
系統樹を保存したい場合には、Imageをクリックして、保存条件を選んでください。
なお、最節約系統樹は一つとは限らないことに十分注意してください。
5. 最尤法で系統樹作成
Phylogenyをクリックし、Construct/Test Maximum Likelihood Treeを選択してください。
Active Dataを使うかを訊いてきますので、Yesをクリックしてください。
解析の条件を設定できる画面が表示されますので、ここで条件を設定します。
Test of Phylogenyでは、今回はNoneを選択してください(ブートストラップを行うと時間内に終わらない可能性があります)。
Model/Methodでは、とりあえず、WAG modelを選択します(最適なモデルの選択を行うためには、Modelsをクリックし、Find Best DNA/Protein Modelsを実行した結果に従ってモデルを選んでください)。
Rates among Sitesでは、Gamma Distributed (G)を選択し、No. of Discrete Gamma Categoriesを5としてください。
Gaps/Missing Data TreatmentではComplete deletionを選んでください。
ML Heuristic Methodでは、とりあえず、Nearest-Neighbor-Interchange (NNI)を、
Initial Tree for MLでは、Make initial tree authomaticallyとしてください。
条件を決定して後、Computeをクリックしてください。
その結果、最尤(ML)系統樹が表記されます。
先ほど設定した条件を見る際には、系統樹の画面において i をクリックしてください。
系統樹を保存したい場合には、Imageをクリックして、保存条件を選んでください。
以上の3つの系統樹を比較し、考察してください。
また、最尤法ではなぜ時間がかかるかについても考察してください。
次にアミノ酸をコードしているDNA領域の系統解析を行います。
6. アミノ酸をコードしているDNAへのMEGA解析用のファイルの作成
系統解析を行うDNA配列をマルチFASTA形式で用意します(メモ帳などを使ってください)。
KEGGにおいて、sce:YBR115Cの画面に行きます。
NT seqをクリックして、FASTA形式の情報をコピーし、メモ帳にペーストしてください。
sce:YBR115Cの画面に戻り、OrthologyのK00143をクリックすると、Genesとしてオルソログがまとめられています。
AGO: AGOS_ADL346Wをクリックして、先ほどと同じ要領でFASTA形式のDNA配列を先ほどの配列の下にCopy and Pasteしてください。
ERC: Ecym_3457、KLA: KLLA0B09218g、LTH: KLTH0F10384gについても同様に行い、メモ帳には5つのDNA配列がマルチFASTA形式で書き込まれた状態にしてください。
次に、MEGAを立ち上げ、Alignをクリックし、Edit/Build Alignmentを選んでください。
Select an Optionの表示が出ますので、Create a new alignmentでOKをクリックしてください。
入力ファイルの情報を聞いてきますので、DNAをクリックしてください。
Alignment Explorerが開いたことを確認し、そこに先ほどのマルチFASTAのデータをコピーし、Alignment Explorer上にペーストしてください。
この状態でマルチプルアライメントをとりますと、アミノ酸のコードを無視することになりますので、Translated Protein Sequencesをクリックしてください。
Translate only the selected segment?と表記されますので、すべてが選択されていることを確認し、Yesをクリックします。
Genetic Codeを聞いてきますので、とりあえず、Noをクリックし、この場合にはStandardを選択し、OKをクリックします。
画面にはアミノ酸配列が表示されています。この状態でCLUSTAL WあるいはMUSCLEを選んでください。ここでは筋肉の絵が描かれているMUSCLEをクリックします。
マルチプルアライメントの条件設定画面が現れますので、まずはdefaultの状態でComputeをクリックしてください。
アミノ酸配列でマルチプルアライメントが作成できていることを確認し、DNA Sequencesをクリックしてください。
アミノ酸配列に基づくマルチプルアライメントをDNAへ訳しなおしていますので、ギャップが3の倍数となっていることがわかります。
このDNA配列のマルチプルアライメントを保存するため、Dataをクリックし、Export Alignmentを選択し、MEGA Formatをクリックします。
Lys2DNAなどの名前を付けて保存してください。Input title of the dataの表示がでますが、何も記入せずにOKをクリックしてください。
Protein-coding nucleotide sequence data?と聞かれますので、Yesをクリックしてください。
これにより、MEGAで解析可能なDNA塩基配列のデータができました。
7. アミノ酸をコードしているDNA塩基配列に基づく系統解析
先ほど保存したLys2DNAファイルを開いてください。
まずはアミノ酸配列のときと同様にしてNJ法による解析をします。
アミノ酸配列のときと異なる点は、Substitutions TypeがNucleotideとなり、進化距離算出方法を選びます。
例えば、Kimura 2-parameter modelを選択します。
また、Transtitionsのみ、Transversionsのみ、両方を選ぶこともできます(ここでは両方を選びます)。
さらに解析する領域をコドンの位置で絞ることができます(ここでは1sと2ndを選択してください)。
進化距離行列を見る場合には、Distanceをクリックし、Compute Pairwise Distancesを選択し、系統樹の作成と同じ条件を確認し、Computeをクリックしてください。
次にMP法による解析も行ってください(アミノ酸配列の場合と設定は特に変わりません)。
最後にML法による解析を行います(ブートストラップは時間がかかりますので、ここでも行わない方が賢明です)。
アミノ酸配列のときには使いませんでしたが、モデル選択を行いましょう。
Modelsをクリックし、Find Best DNA/Protein Models (ML)を選択します。
Substitution TypeがNucleotide、Gaps/Missing Data TreatmentがComplete deletion、Select Codon Positionsが1sと2ndとなっていることを確認し、Computeをクリックしてください。
BIC (Bayesian information criterion)のスコアが良いものから順に結果が表示されます。
今回のデータではGTR+Gが最も良い結果でしたので、Phylogenyにおいて、Model/MethodとしてGeneral Time Reversible modelを選択し、Rates among SitesでGamma Distributed、No. of Discrete Gamma Categoriesを5とします。
タンパク質をコードしている領域の比較はDNAの塩基配列および翻訳されたアミノ酸配列の両方の解析が可能です。
DNAの塩基置換にはアミノ酸を変える非同義突然変異とアミノ酸は変わらない同義突然変異に分けることができます。
非同義置換はタンパク質の構造を変える可能性が極めて高いため、検出できる置換の多くは同義置換であり、多くが第三コドンの置換となります。
すなわち、第三コドン位置における置換は進化の過程において複数回生じていると考えられ、この位置での塩基置換のカウントには注意が必要です。
上記の解析において、第三コドンの置換を比較対象から除いた理由です。
マルチプルアライメントにおける各アミノ酸サイト毎の同義(synonymous)および非同義(nonsynonymous)の情報を見てみましょう。
Selectionをクリックし、Estimate Selection for each Codon (HyPhy)を選びます。
条件を設定し、Computeをクリックします。
結果の表示ファイルを聞いてきますので、Microsoft Excelを選択してください。
すべてのアミノ酸サイトにおける同義および非同義の情報を見ることができます。