NCPA入門

・・・「階層クレード分析」と訳すのが定訳だろうか?

これは,Phylogeographyシンポ<日本魚類学会2003>@京都のための

準備として,NCAの基本文献である

Templeton AR (1998) Nested clade analyses of phylogeographic data:

testing hypotheses about gene flow and population history. Mol Ecol 7:381-397

を読みこなそうとした試みです.

特に名前のないものは渡辺による発信です.

Last update: 2005年1月25日:Inference Keyをリンク.

2004年12月14日:TCSとGeodisのリンクをアップデート,その他若干誤読を改訂.

2003年魚類学会シンポの準備のためのMLで配信したものを一部改編して載せています.

第1回

以下,何回かにわたって,Templeton (1998) と高橋さんの

NCAの要約をもとに,「主観的」読解を進めていきたいと思います.

適当にフォローや疑問,訂正,クレーム,ちゃちゃなどを挟んでください.

よろしくお願いします.

分かりきったことを,という方も多いと思いますが,さらっと

おさらいを.

=====

では,結構長い,Templeton (1998) を順を追って(駆け足で)

見ていきたいと思います.

まず,アブストラクト,分かる人には分かるが,分からなければ「ふーん」と

いうしかないかも.

集団遺伝学の歴史は前世紀の前半に遡るが,「種内の遺伝的変異が空間的に

どう分布するか」を測ろうとしてきました.

もちろん皆さん,S. Wright(F統計などの原典などに出てくる)などの名前は

ご存じなわけです.

最近遺伝的変異・多様性を実測するのが容易になってきたわけですが,

進化情報を表わすのに「分子系統樹」が重要なのは言うまでもありません.

でも,伝統的なF統計(固定指数など)などは「異なるハプロタイプ/

アリル*」という情報以上は使わないので,「樹」の情報を取り入れた

ちゃんとした統計的枠組みが必要になっています.

(*mtDNAが使われることが多いので,以下,単にハプロタイプとします)

その1つが話題の(?)Nested Clade Analysis(階層クレード解析で

よろしいですね?)であり,ハプロタイプ・ネットワークの階層構造と

地理分布の情報を突き合わせることで,現在の遺伝的交流と歴史的な現象を

統計的に示すことができるんだそうです.

<ここら辺,不明瞭な内容がありましたので,直しました:041214>

前者は「現在の制限された遺伝子流動」,後者は「分断 past fragmentation」,

「移住定着 colonization」,「分布域拡大range expansion」を含むと考えられます.

高橋レビューを参照すると,

past fragmentationは,過去の分断,ということで,地理的隔離などによる

歴史的な分断現象による遺伝子系統樹の分岐で,分断生物地理を

バックボーンとする現代に生きる私たちには,最もなじみがある現象・概念でしょう.

(分断生物地理なんて知らない?・・・もう血肉となっているんです,ふふ.)

colonization,(訳しにくいですね)植民ということですが,移入,あるいは

移住定着などが適訳でしょうか.

移入し,かつ集団がestablishしたということです.

これは,一部の個体が(遠距離の)移住に成功し,そこから新たな歴史を

スタートして,そこ特有のハプロタイプを産み出してきたような場合ですね.

創始者効果→遺伝的多様性の増加,という場合でしょうか.

そしてrange expansion,分布域の拡大,ニュアンスとしては「急速な拡大」,

つまり,その過程で分断による遺伝的分化や創始者効果などが生じることなく,

急速に遺伝的交流が広い範囲にわたってなされた場合で,ハプロタイプは

広い分布域を持つことになります.

突き詰めれば,

「これらの現在と歴史的要因が,生物の分布と遺伝的集団構造を決めるプロセスであり」,

それを,ハプロタイプ樹(分子系統)と地理分布情報から,それなりに

ちゃんとした統計的枠組みで区別するのが,「NCA」ということになります.

<ここら辺,不明瞭な内容がありましたので,直しました:041214>

うーーん,目から鱗.

系統地理では,主に種内という“近い”「歴史」を考えるので,

「分断」と「分散」の両方が両方とも重要だ,というAvise (2000:P7,

Figure 1.3) の考えを,体現しているといわれるだけのことはあるかも...

=====

では追ってIntroductionから読んでいきます!

2003.6.13

第2回

さて,

Templeton (1998) のIntroduction(p.381-382)です.

=====

まず,アブストと同じような感じで,最近は遺伝的変異を

分子マーカーにより実測でき,しかも分子系統という時間軸を

含み得る形でアリル(ハプロタイプ)の関係を示すことができる,

というところから始まります.

分集団化あるいは集団構造の定量化に用いられてきた伝統的な

F統計量は,アリル頻度という情報しか使わないので,あらたな指数や

方法が開発されてきています.

(例えば,Fの替わりに,アリル間の差異の程度を考慮したものが

Phi(←AMOVAで出てくる)と考えてよいのでしょうか?)

Templeton たちの一連の仕事(高橋NCAレビュー参照)もそれを意図したもので,

現在の遺伝的交流による集団構造と歴史的なイベントを切り離す,という

手続きだといいます.

でも,range expansionについては多くの議論があったので,いくつかの

実例とともに,このレビューで検討したいんだそうです.

NCAのすごいところは,集団の遺伝的構造に影響を与える要因の(時間軸を含む)

ダイナミクスを推定することができるんだ,と最後に強調しています.

次の節は,Wrightの島モデルから話が始まります.

2003.6.13

第3回

(書きながら,できのあまりよくない大学生に向けて講義するような

文章だな,と感じています;皆さんには失礼かと存じます...ご容赦を!)

=====

Detection and estimating restricted gene flow (p.382-)

まず,Wrightの島モデルと固定指数FSTに関して紹介され,

Nm(分集団間の移動個体数)とFSTの有名な関係式が示されます.

FST=1/(4Nm+1)

これだとNmが4ないし5以上になると,FSTは0に近づき,

実質統計的に0と見なされたり,Nmの大きさに対して感度が

ほとんど無くなります.

極めて交流が稀なときにしか,FSTは交流の程度を測れない

という訳です.

(ちなみにNは各分集団の個体数[島モデルでは同じと仮定],

mは移動個体の割合です.)

さて,ここからショウジョウバエのAdh酵素の実例をもとに,

NCAをなぞっていきます.

以下,Templeton et al. (1987) の概説だそうです(あ,持っていなかった!)

まず,ハプロタイプネットワークについて,Templeton & Sing (1993) などに

記載されている nesting ruleによって,末端のハプロタイプから,

順次近縁なハプロタイプ,そしてハプロタイプグループを入れ子(nest)状に

くくっていきます.

ハプロタイプネットワークは,単純な場合には手計算やPAUPなどで最節約樹を

計算することにより得られますが,複雑でhomoplasyの多いデータの場合,

統計学的最節約法というやつを使うそうですね(→高橋NCAレビュー).

また,nesting ruleというのは,実際に手でやって見ると,結構,

「どうすればいいんや?!」というケースが出てきます.

そんなときは,黙ってTCSというソフトに任せましょう...(でいいの?>高橋さん)

(新しいバージョンでは,nesting機能は不完全ということで削除されました.)

そして,順次1-stepクレード,2-stepクレード...と全体が含まれるまで

続け,それらの各階層クレードを,'C-N'という風に名付けるそうです.

階層CのナンバーN(任意)のクレードということですね.

(Fig.1やNCAを使った論文を見ればご理解いただけると思います.)

さて,でき上がった入れ子構造の上で,いよいよ,地理分布情報を検討していきます.

まずは地理的距離を無視して,シンプルな解析で肩慣らしです.

異なる地域を別のカテゴリー変数として見なしましょう.

Fig. 1のクレード2-1を例に説明がなされます(文献を持っていない人は

連絡してくださいね).

クレード2-1には,1-1と1-2が含まれます.

このレベルについて考えて見ます.

これらは3つの地域から得られていて,それぞれの個体数は次の表の

通りです.

(ここではショウジョウバエの家系line数なのですが,通常は個体数なので

個体数としておきます.)

このような2x3の分割表となりますが,クレードと地理分布に関係があるかどうか,

単純に分割表の検定をして見ましょう.

帰無仮説は,「関係ない」です.

行列が小さいので,群馬大の青木さんによる素敵なページのJavaScriptで,

NxM表に拡張された分割表に関するFisherの正確確率検定をやってみると,

確かにp=0.0333で,帰無仮説は有意に棄却されます(本文の記載と一致します:

一般には,モンテカルロ法や周辺和を一定にした並び替え検定などで対処します ).

つまり,2-1に含まれる2つのクレードは何らかの偏った地理分布をしている

ということになります.

あと,クレード3-1に含まれる3つのクレードに関しても有意だと

書いてあるんですが,個体数のデータがないので,オリジナルを見なければ

再検討はできません.

ほかは有意ではなかったそうです.

FSTでは地域間の分化は見いだされなかったそうですが,ハプロタイプ樹を

もとに以上のような検討をしたら,ハプロタイプの地理分布に何らかの

構造が見つかった,ということです.

ここで次のステップに進みます.

~~~

地理分布との何らかの関連が見つかったとして,それをとりあえず,

遺伝的交流/遺伝子流動の制限(restricted gene flow)による

と仮定してみましょう(あくまでも,とりあえずね!)

ここで,Slatkin & Maddison (1989) の分子系統樹を用いた

Nmの推定法というのが出てきます.

ちょっと原典を見てみましたが,ちょっと見たくらいでは内容は分かりませんでした;

これで推定されるNmは,上記のように地理分布に関して有意であり,かつ,

それが遺伝子流動の制限によって生じている場合にしか意味はないということが

強調されています.

今回はこの点はOKということで話を進めます.

Fig.1の例について計算すると,Nm = 5.4 (95%CI = 2.0-19.6) となったそうで,

「こんなに大きかったら,FSTなんてほとんど0になるはずだね,ほら,

系統情報を使ったからこそ正確なNmが推定できたでしょう」,ということになりました.

めでたしめでたし.

最後に,別のローカス(Amy)で同じことをやってみたそうですが,

遺伝子内の組換えのせいで,統計的パワー(検出力)不足のため,

はっきりとしたことは分からなかったことが述べられ,今後の課題として

ローカス間の違いや樹の分解能がどうパワーに関わってくるかを調べなければ

いけない,と結んでいます.

以上,WrightのF統計の限界と,系統情報を加えることで,集団の地理的構造や

Nmについて,より詳しく検討していくことができるのだ,という

イントロ的,エッセンス的なお話でした.

=====

次は,Discriminating between recurrent gene flow and historical events

という節です.

お楽しみに(?)

2003.6.13

第4回

続いて...Templeton 1998 を読む -4ということで...

Discriminating between recurrent gene flow and historical events

(p.384-)

節のタイトルから訳しにくいのですが,recurrent gene flowって...

recurrentというのは回帰とか再帰ということらしいですね.

社会人の再教育をリカレント教育なんて最近よく耳にします.

それはさておき,ここでは「現在もある遺伝子流動」,「現在的な遺伝子流動」

あるいは「経常的遺伝子流動」(by 高橋さん)という感じでしょうか.

つまり,「現在の遺伝子流動と歴史的イベントの区別」.

内容を見て理解を深めましょう.

前の節の解析は,「とりあえず」遺伝子流動の制限によって地理的な構造が

生じたと仮定していました.

でも,ある種が2つ以上の集団に分集団化していて,いっさい遺伝子流動が

ないとしましょう.

いっさい交流がなくても,1つの集団が分かれたのだから,遺伝的には

よく似ていて,FST < 1となり,伝統的には遺伝子流動があると見なされて

しまいます.

別のストーリーもあり得ます.

小さな分集団から最近のある時点で広い範囲に分布を急速に拡げた場合,

全体に遺伝的に類似することになって(FST ~ 0),遺伝子流動が過大評価されて

しまいます.

お分かりのように,最初に述べた3つの集団のプロセスを想定すると,

伝統的なF統計値は生物学的に間違った推論をもたらしてしまいます.

そこで分子系統樹の登場です.

ハプロタイプ樹を使えば,この集団の歴史と遺伝的構造の絡み合いを

解きほぐすことができる,というわけです.

いくつかの生物学的な説明に甲乙を付けられることこそ,ハプロタイプ樹を

使うアプローチの最大の利点だと述べられています.

ここで,非歴史的なF統計量による分析では同じように見えるものを,

ハプロタイプ樹を用いて区別できる実例を挙げています(Templeton &

Georgiadis, 1996).

アフリカの同じ地域のバッファローとインパラについて,mtDNAのRFLP

分析により解析した研究例です.

対象集団はそれぞれ近場のケニアとタンザニア,そして少し離れたチョベ

(ボツアナ北部)の3地点で,両種ともFSTは0.08,0.10と0ではないが,

ほぼ同じような小さな値を示したそうです.

これはチョベのそれぞれの集団が独自のハプロタイプをもっていたためでした.

伝統的には,2種はよく似たプロセスで同じようなパターンを示していると

結論しかねません.

ところが,Fig.2に示された通り,ハプロタイプ樹上のハプロタイプの

分布パターンは2種間で異なるものだったようです.

バッファローでは,チョベにだけ現れるハプロタイプ(色つき)は樹の

さまざまな場所に,一方,インパラのチョベ・ハプロタイプは他から離れて

一ヶ所に固まっています.

2種が同じプロセスを経たとは考えることができません.

このように,ハプロタイプ樹の情報は,明らかに伝統的なF統計値よりも,

遺伝的変異の時・空間的な情報を多く含んでいます.

F統計値には特に時間(歴史)の情報が含まれていないからです.

~~~

より詳しく検討していきましょう.

バッファローの場合,チョベ・ハプロタイプがネットワーク全体に

散在することから,チョベと他の2地点の間にはrecurrentな遺伝的交流が

あると考えられます.

これは,「1つの祖先ハプロタイプから今観察されるハプロタイプ全体が分岐

するほどの時間スケールでは」ということです.

これを端的に「mtDNAのコアレセンス(合着)から現在までの期間に」と

表現しています.

一方,インパラのパターンは簡単に結論することはできません.

まず考えられるのは,過去の分断による集団の分岐の結果,というものです.

チョベ・ハプロタイプはその他とmissing haplotype nodesを挟んで分離しているので,

直感的にもうなずけます.

しかし,実際にはチョベと他の2地点の間にもインパラはいるそうなので,

別の可能性として,距離による隔離isolation -by-distance(言い替えれば,

遺伝子流動の制限)が原因かも知れません.

サンプリングされなかった中間地点のインパラが,missing haplotypes を

もっていることが分かれば,断然こちらの説明が有利になります.

実際には,NCAによるより厳密な解析の結果,サンプリングが荒すぎて,

どちらの仮説も棄却できない,という結果になったそうです.

以上のことは,ハプロタイプ樹の上に地理情報を乗せて,視覚的・直感的に

推論を行うことの危険性を示しています(ドキ!...)

実際多くの研究がそのようになされているわけですが(キョロ,キョロ...)

まずもって,遺伝的変異と地理分布の間に何らかの関係があるかどうか,

サンプリングデザインの妥当性とともに統計的に検討する必要があります.

その方法として,前節の分割表の分析のときに出てきたような階層デザインを

用いた定量的な解析が,まさにNCAということになります(Templeton et al., 1995).

~~~

ここからいよいよ,NCAの本丸に入っていきます(多分)...

では,まずは今回はここまで!(本文p.385,右L7行目までに相当)

2003.6.14

第5回

さて,Templeton 1998 を読む -5ということで,

Discriminating between recurrent gene flow and historical events

の後半を...(p.385,右L8-)

=====

いよいよNCAの中核の話になってきましたが,まず地理的データが2つの

量で定量化されます(重要!).

クレード距離 clade distance(Dc):あるクレードの地理的分布範囲.

階層クレード距離 nested clade distance(Dn):(直訳すると;)あるクレードが

それの最も近縁な進化的姉妹クレードに対してどのように地理的に分布しているのかを

測る,とあります.

(近縁な姉妹クレードとは,同じ階層レベルに含まれる他のクレードのこと.)

具体的には...

クレード距離Dcは,あるハプロタイプをもつ1個体が,同じクレードに出現する

ハプロタイプをもつすべての個体の「地理的中心地」からどれくらいの

平均距離をもつのかを測ります.

*****

「地理的中心地」から?...説明不足ですね!

...高橋NCAレビューを...あれ? Avise (2000:Fig.2.24)を見ろ,と

ありますね;

Avise (2000) をみてもよくわかりません;説明不足です...

では,ちゃんと引用文献を見てみましょう(>Templeton et al., 1995:

Genetics 140,767-782).

Templeton et al. (1995) のp.769左下から説明されてありました.

Figure 1はAvise (2000) に引用されている図です.

どうやら,地理情報の与え方は,場合によって適宜,いい具合にやれば

よいみたいです.

最も単純には,緯度,経度のデータを使う方法です(アフリカのサバンナなら

よいでしょうね.)

対象とするクレードに含まれるハプロタイプをもつ全個体の緯度・経度の

平均値を「地理的中心地」とすればよいわけです(分布の重心のようなもので

しょうか).

そして,各個体のクレード距離は,その個体の採集地と地理的中心地の

距離で測られ,そのクレード内のハプロタイプをもつ全個体に関する

平均が,そのクレードのクレード距離となります(Dc).

クレードXのハプロタイプが,すべて同じ場所から採れていれば,Dc=0だし,

そうでなければ,Dcは何らかの正の値をとります.

直感的に,「あるクレードの地理的分布範囲」を表わすとよく理解されますね.

*****

さて,一方,階層クレード距離Dnについては,まず今調べたいクレードXを

含む1つ上のレベルの階層Yについての「地理的中心地」を上と同様に求めます.

そして,今対象としているクレードに含まれるハプロタイプをもつ全個体に

ついて,上位階層Yの「地理的中心地」からの距離を測ります.

その平均がXの階層クレード距離Dn(X)ということになります.

Xに含まれるハプロタイプがすべて同じ場所から見いだされたのなら,Dc(X)は

0ですが(上記),同じ階層の他のクレードのハプロタイプの分布から

離れていれば,Dn(X)は大きい値をとることになります.

以上で,DcとDnについて,ご理解いただけたと思います(すでに

高橋NCAレビューで十分だったかも...).

なお,淡水魚の場合,単純に緯度・経度の重心という訳にはいきませんよね.

例えばYamazaki et al. (2003) (ヤツメ類)では,河口間の距離を

使っています.

Takahashi et al. (2003) (トミヨ類)では,地理的に近場ということも

あってか(?)直線距離(緯度・経度と同じ?)を使っているようですね.

基本は河口間距離としても,上流域での河川争奪などの可能性を考えると,

いくつかの場合を検討しながら解析や論議をした方がよいかもしれません.

あるいは,NCAの結果,長距離移住・定着という結果が,分水嶺を隔てて

現れた場合(本州中部の太平洋側,日本海側というように,海岸距離では

途方もなく大きな距離となってしまう場合),河川争奪をポストホックに

結論してもよいかもしれませんね(なんかワクワクします...)

(まだYamazaki論文もTakahashi論文も詳しく読んでいませんが,高橋さん,

以上のところ,いかがでしょうか?)

では長くなりましたので,とりあえず,2つの距離の定義だけで切っておきます.

2003.6.17

第6回

Templeton(1998)を第6回です.

いよいよNCAの話になってきました.

高橋さん,コメントありがとうございました.

=====

以上までで,基本的な統計量となるDcとDnが導入されました.

p.385の終わりの方からです.

DcとDnをどのような枠組みで比較していくか,という点について,

まずズバリと宣言されます.

つまり...

ハプロタイプ樹の末端に位置するクレード(tip clades)と,

それのすぐ内側に位置するクレード(interior clades)の間の

2種類の距離(Dc,Dn)の対照・比較が,遺伝的変異の

地理的構造を生じる要因を区別するために重要だということです(後述).

TipとInteriorは,Templeton et al. (1995)やAvise (2000:Fig.2.24)にも

ありますが,

といった関係です.

もちろんTipクレードの数は1つの場合,2つ以上の場合があります.

このような,あるクレードとそれを含む上位階層のクレード(TipとInteriorを

含む)が基本的な枠組みになり,すべての階層のこのような枠組みについて,

2種類の距離(Dc,Dn)や末端vs内側クレード比較に関して統計検定を

行うことになります.

この統計検定には,AMOVAとかでおなじみの(?)無作為化検定を用います.

事実,この文献では詳しく述べられていませんが,Templeton and Sing (1993) を

見ると,AMOVAと同じく,個体間の距離を基本データにした階層分散nested ANOVAが

行われます.

AMOVAの場合は個体間の遺伝的距離ですが,NCAではDcやDnといった地理的距離

となります.

実際には,個体数やハプロタイプ頻度などについて実際のデータと同じ条件

とした上で,「遺伝的変異の地理的な構造はない(帰無仮説)」とした場合の

無作為化サンプリングを繰り返します(一般的には1000回以上は反復すると

思います).

そのとき計算される帰無仮説上でのDcやDnの分布が,帰無仮説の棄却に用いられる

ことになります.

これらの計算はGeoDisというフリーソフトがちゃんとやってくれるはずです.

~~~

もし統計的に有意な「遺伝的変異の地理的な構造」が検出されたら,

それに対して生物学的な説明を行うことになります.

(有意でないのに長々と議論するのは,ナンセンスだと,先ほど

述べていました.)

ここで,例の「遺伝的変異の時空間的な関係を生み出す3つの要因」が

詳しく検討されます.

「推論の鍵」の中で展開される統計検定手順のベースになるので,

よく理屈を理解しておきましょう.

(1)Restricted gene flow

まず最初は「距離による隔離」による「制限された遺伝子流動」.

この場合,個体の移動が限られるため,突然変異で新しく生じた

ハプロタイプが地理的に広がっていくのには時間がかかります.

したがって,クレード距離Dcは時間が経つにつれて(ゆっくりと)

大きくなると考えられます.

もしハプロタイプ樹が外群によって正しくルーティング(<系統樹の根を決める)

されれば,階層クレードは時間軸の中でどのように生じてきたのかを

直接的に推定することができます.

でも種内のハプロタイプ樹では,外群・その他の方法でうまくルーティングが

できないと言っています(文献が引用されていますが,別種の外群だと

内群に対して遠すぎるとか,そういったことでしょうか? あるいは

基本的に祖先的なハプロタイプが派生的なものとともに残っているから?

...だから引用文献を読めって...;)

しかし,階層クレード構造のもとでは,うまく時間軸を導入することができます.

つまり,ある階層クレードは,それに含まれるクレードと“同じ”か,“より古い”

起源をもつはずですね.

このことから系統樹の根がどこにあろうと,階層が上位(より包含的)に

なるにつれて,そのクレードの起源もより古くなっていくことになります.

つまり,2段落上で述べたことを考えると,「遺伝子流動の制限」モデルのもとでは,

階層レベルが上がるにしたがって,(長い時間を経ているので)クレード距離Ncは

大きくなっていくはずです.

******************ここまでチェック 2005/2/18

このクレード距離は,ハプロタイプ樹全体を含む階層に至るまで増加し続ける

かもしれません.

あるいは,もし遺伝子流動がそのハプロタイプ樹全体の分化時間のスケール

(コアレセンス時間)に比べて十分に大きければ,もちろんある階層段階で

地理的構造は消滅するでしょう(つまり遺伝的変異が地理的に一様に分布する).

「制限された遺伝子流動」のもとでのもう一つの特徴は,突然変異で生まれた

新しいハプロタイプは,まずはそれの祖先ハプロタイプとともに出現するはずだ

ということです.

そして,祖先ハプロタイプは,当然“より古い”ので,「制限された遺伝子

流動」のもとでは“より広い地理分布”をもつと考えられます.

そして,祖先ハプロタイプから派生した新ハプロタイプは,ハプロタイプ樹の上で

より末端に位置する(逆に言えば祖先タイプは内側に位置する)はずなので,

「制限された遺伝子流動」のもとでは,末端のクレードは,その内側のクレード

よりも,“地理的分布範囲が狭く”,かつ“内側のクレードの分布範囲に

内包される”傾向を示すはずであるといえます(なるほど!).

さらに!

祖先ハプロタイプは,それが生じた地点(geographical origin)付近で多く

見られるはずなので,それから派生した新ハプロタイプもまた,

その祖先の生じた地点の周辺で多く生じるはずです.

つまり,同じ階層クレードに含まれるすべてのクレードの「地理的中心地」(!)

は互いに近くにあるはずであり,したがって,この「制限された

遺伝子流動」のもとでは,それらの姉妹的なクレードの間で,

クレード距離や階層クレード距離は同じようなパターンを示すはずだ,

ということになります!

うーーん,まだ漠然としているけど,少し分かりかけてきた...

ではでは,とりあえず「制限された遺伝子流動」下でのDcとDnの関係についての

予測でした.

次は,残る2つの要因について,短く論じられていきます.

2003.6.17

第7回

Templeton (1998) を読む-7です.

NCAの核心に進んでいます.

=====

(2)Past fragmentation events

遺伝的変異の地理的構造をもたらす第2の要因として,「過去の分断現象」が

検討されます.

いずれかの時期から集団が2つ以上の分集団に分断されてきたとすると,

ハプロタイプ樹の階層をそのレベルまで遡ると,一方の分集団に含まれる

ハプロタイプはその分集団の分布範囲を超えて分布することはないので

(<分断の定義上),それ以上にクレード距離は増加することはなくなります.

しかし,階層クレード距離は,それに含まれるクレードが異所的となった

レベルで,際立って大きくなるでしょう.

分断が突然変異を蓄積するのに十分なほど古いなら,この分断に対応する

ハプロタイプ樹の枝は,樹の中で目立って長いものになると考えられます.

(3)Range expansion

第3の要因は,「分布域の急速な拡大(移住・定着を含む)」.

分布域の急速な拡大が起こった場合,そのソースとなった集団に含まれる

ハプロタイプは地理的に広く分布することになり,つまり,クレード距離が

増大します.

「制限された遺伝子流動」のときには,「末端クレード」の地理分布は

「内側クレード」の分布よりも小さくなると予測されましたが(<新しい

クレードは分散に時間がかかるため),「分布域の急速な拡大」のもとでは,

そのような関係は見られないか,逆転する場合もあり得ます.

さらに,拡大した分布域に見られるハプロタイプのいくつかは,もともとの

分布域に存在する古いハプロタイプから遠く離れた場所にあるでしょうから,

それらの階層クレード距離は大きくなるはずです.

これは特に長距離移住が起こった場合で顕著でしょう.

移住集団に突然変異が蓄積され始めると,その新ハプロタイプ(群)は

末端クレードを形成することになります.

その内側クレードはもとの分布域に分布し続けているわけなので,

この末端クレードの階層クレード距離は大きくなるはずです.

~~~

以上が,遺伝的変異の地理的構造を形成する3つの要因のもとで予測される

Dc,Dn,そして内側クレード-末端クレードにおけるそれらの大小関係でした.

GeoDisというソフトは,無作為化階層分散分析によって,それぞれのクレードや

内側クレード-末端クレード対比に関するDc,Dnとその有意性を計算してくれます.

それをもとに, Appendixにある「推論の鍵」にしたがって,Yes, No式に3つの

要因のうちのもっともな妥当な結論へと導くことになります.

例えば,だいぶ前に出たSlatkin & Maddison (1989) は,「制限された遺伝子流動」

のもとでNmを推定するものでしたが,「推論の鍵」により「制限された遺伝子

流動」が地理的構造をもたらしたと結論された場合に初めて,推定に意味が

あるということになります.

はじめの方で例示されたショウジョウバエのアロザイムAdh遺伝子の場合,

クレード3-1の中で,「末端クレードのクレード距離が小さい」ことから,

「推論の鍵」は「制限された遺伝子流動」が地理的構造を生み出していると

結論付けたそうです.

ここで,上記のNmの推定が有効となり,Nm = 5.4という中途半端な(?)

世代当たりの集団間移動個体数に意味が出てきます.

もう一つの遺伝子座(Amy)では,前述の通り,遺伝子内組換えのために

2つの領域に分けて解析する必要があったわけですが,分割表による

アプローチ(第3回)では,どちらの領域でも,情報量不足のため,有意な

地理的構造は検出されませんでした.

しかし,NCAを行ったところ,情報量不足であることには変わりなかったものの,

一部に「制限された遺伝子流動」が検出されたそうです.

つまるところ,「距離による隔離」による遺伝子流動の制限(しかし比較的

現在的な遺伝子流動のレベルは高い)が,この種の遺伝的変異の地理構造を

特徴づけると結論されています(Adhの結果と整合的でした).

~~~

1つのハプロタイプ樹上で,多くの「有意な」結論が得られた場合,

時間軸に沿った動的な集団構造形成の様態が見えてくる場合があります.

例えばサンショウウオの例です(Templeton et al., 1995).

まずこの種では,亜種として認識されている2つのグループが,NCAにより,

「過去の分断」によると推論されました.

そして,それぞれの亜種の中で「制限された遺伝子流動」,さらに「分布域の

急速な拡大」が検出されています.

3つの要因は相互に排他的ではないわけですが,NCAの優れた点は,どれかを

前もって除外したりすることなく,客観的に解析できることです.

さらに,階層構造が内包する時間の概念のおかげで,どのような要因が,

いま目にする遺伝的変異の地理分布に影響してきたのかを,ダイナミックに

再構成することが可能となります.

サンショウウオの例では,分断は分布域拡大の前に起こり,分布拡大の前にも

後にも「距離による隔離」による遺伝子流動の制限が,この種の重要な集団構造

形成の要因であったことが分かります.

うーーん,面白い!

~~~

長くなりますが,もう少しだけ.

NCAの利点は,サンプリングの不適切さを検出することができるところにも

あります.

例えば,先に紹介されたバッファローの例では,チョベとタンザニアの間の

遺伝子流動が見られましたが,これが距離による隔離の結果なのか,

稀だが現在的な長距離移動の結果なのかは結論が出ませんでした.

これは両地点間からのサンプルがないからでした.

インパラの場合も,ハプロタイプ樹のパターンは異なりますが,両地点の

間のサンプルがないため,地理構造の要因を特定することはできませんでした.

逆に言えば,将来の研究計画において,両地点の間のサンプルを解析することが

重要であることを示しているともとれるわけです.

一方で,どれくらいの地点・個体数のサンプルが必要なのか,事前に分からない

事も確かです.

種によって集団構造が異なるからです.

なるべく重要で強い推論結果を得ようと思えば,一部のサンプルで予備解析をし,

その結果に応じて,さらなるサンプリングや解析の内容を決めていくのが

よいのではないか,と提起されています.

=====

以上がNCAの核となる部分でした.

少し具体的な例を見なければピンと来ないと思いますが,次回以降,

また具体的な話が出てきますので,徐々に理解を固めていきましょう.

個人的には,これまでNCAを(どちらかといえば)敬遠してきたのですが,

いまはもう,“Why don’t you do it?”という感じ.

これまでやってきたように,ポストホックに(アドホックというのかな?)

ハプロタイプ樹と地理分布の関係を“Discussionの中で解釈”するより,

やはり「客観性」,「統計的枠組み」という点で,少しは進んだ感じがしますね.

追って,オリジナルデータを使った実例(単純なヤツね)も,お示しして

いきたいと思っています.

ではでは.

2003.6.18

第8回

p.388,Validity of the criteria used to infer range expansion

「分布域の急速な拡大」を推察するのに使われる基準の有効性

この節では,「推論の鍵」の妥当性について,実例(既報の再解析を含む)

とともに検討がなされていきます.

まず,「制限された遺伝子流動」に関する「推論の鍵」に含まれる基本的な

パターンは,最近のコアレセンス理論やコンピューター・シミュレーション

によって,よくサポートされているようです.

同様に,「過去の分断」のもとでの予測は,一般に分断現象を推定する

パターンを定量的に示そうとするもので,そのまま分かりやすいものです.

(→第7回)

一方,「分布域の急速な拡大」に関しては,最も理論的根拠が乏しいといえます.

「分布域の急速な拡大」は,基本的に,祖先的な(内側に位置する)

ハプロタイプがもともとの分布地に限られて分布し,一方,末端ハプロタイプが

広い分布を示す場合にそう推察されるわけですが,そのような論理は

もともとCann et al. (1987) のヒトの「出アフリカ仮説」に研究の中に

見られるそうです.

(Cannは,サイクスの「イブの7人の娘たち」で,確か少し悪者に書かれて

いましたね;関係ありませんが.)

この論理自体はまっとうに思えますが,解析的に,あるいはシミュレーションに

よって十分な検証はなされてきていません.

問題は,「分布域の急速な拡大」はいろんな状況下で起こり,また「制限された

遺伝子流動」や「過去の分断」とさまざまな形で相互に関連し得ることだと

考えられると指摘されています.

結局,解析・シミュレーションを行おうとしても,考慮すべき仮定が多すぎ,

またどの仮定が生物学的に重要かも明らかでない,という状況にあります.

そんな状況なので,明らかな分布域拡大の実例を検討することで,生物学的な

意味をはっきりさせるのが最もよいのではないか,ということになります.

幸い,遺伝的データを使わずとも,「分布域の拡大」が起こったことが

十分な信頼性で推察できる例が多数あります.

Table 1には,そのような対象について,mtDNAの制限サイトマップか

シーケンスデータにより,ハプロタイプの地理的分布が十分に示されて

いるような13のデータセットが挙げられています.

最初の7例は,現在の分布域は更新世には生息が不可能で(氷河の影響でしょう),

後氷期に分布域を拡大してきたはずのものだそうです.

TempletonらのAmbystoma tigrinum(タイガーサラマンダー)のデータ,ダーター(魚)

バッタ,ホリネズミ,ギャラクシアス(魚)の例が挙がっています.

残る6例は,人為的な原因による分布拡大やヒト自身の例です.

ショウジョウバエやコヨーテ,おサル,ヒトのデータが挙げられています.

こういった良い例を使って,Cannたち,あるいは「推論の鍵」の妥当性を

調べてみよう,というわけです.

一部はすでに原著でNCAが用いられていますが,残りは新たにやってみたようです.

実際にNCAをやってみると,一番よく出てくる「統計的に有意な」要因は,

「制限された遺伝子流動」だったそうです.

十分な地点からサンプリングされた場合には,「距離による隔離」の結果であると

されることが多かったそうです.

一方,一部有意でないのは,ハプロタイプ数が少ない(分解能が低い),

地点数が少ない,あるいはまさに遺伝的交流が多すぎる場合だと述べられています.

ヒトに関する2例でだけ,基本的に「距離による隔離」がベースになっているものの,

「現在的な長距離間の遺伝的交流」という結果も示されたようです.

(「推論の鍵」ではどの結果のことなのでしょう? 7-yesかな?)

さて,ここで考えたかったのは(現在的な)遺伝子流動の制限についてではなく,

歴史的なイベントなので,Table 1ではそのような結果のみを右から2列目に

示してあります.

十分な地点からサンプリングがなされていれば,「推論の鍵」は「連続的な

分布域の拡大」と「移住・定着」を区別することができます.

前者は徐々に分布を拡げるタイプで,後者は飛び地にポンと新しい集団が生じるような

場合です.

この区別のためには,十分な地点からのサンプリングが必要となり,いくつかの例では,

区別不能だったようです.

以下,新たにNCAがなされたホリネズミの仲間Geomysについて,主なところを見ていきます.

=====

と,中途半端ですが,ここで取りあえず,時間切れ.

続きは夜にでも発信できると思います.

今週中当たりをめどに,NCAについてはクリアしたいので,これまでのところを含め,

遠慮なく,「おばかな」あるいは「賢い」質問をぶつけてください.

あるいは,「これまでの自分の研究データについてNCAをやって見ました」的な

レポートもお待ちしています(ハリヨのデータでやってみようかな?).

htmlでいただければ,こちらのサイトにアップして,議論のネタにしても良いかも.

また,高橋さんのNCAの別刷りが欲しい人は,「こっそり」高橋さんに頼んでみては

いかがでしょう.

2003.6.23

第9回

Templeton (1998) を読むー9です.

=====

「分布域の急速な拡大」を推察するのに使われる基準の有効性を

実際の例とともに検討しているところです.

Davis (1986) のホリネズミのデータで詳しく見ていきます.

ここで対象となった種は,北米の真ん中の辺り(mid-continental belt)に

広く分布するものだそうで,氷期に氷床に覆われることのなかった南部から

覆われたミネソタなどの北部まで分布します.

Fig.3にnestingされたハプロタイプ樹が示されています.

ここでは外群情報が使えたそうですが,それによると,ハプロタイプ樹

全体のレベルでは,クレード4-1が内側クレードとなる(つまり,

外群が4-1のどこかにくっつく)ことが示されたと記されています.

Fig.4はしばしばNCAの結果を示すのに使われる図ですが,左から

階層の低い方から順にDcとDn,そして有意な結果に関しては

「推論の鍵」による推論が付けられています.

最初はハプロタイプレベル,1ステップクレード,2ステップクレード...

と続きます.

高橋さんがこの間指摘してくれた通り,それぞれのクレード,内側-末端

対比について,Dc,Dnごとに,無作為化検定でランダムな分布における

期待値よりも大きい(L),小さい(S)が評価され,示されています.

(内側ー末端対比 [I-T] に関しては,実際にDc(I)-Dc(T)などの値が

テストされるようです→Templeton et al.(1995)をもう少し詳しく

見てみたいと思います;)

それぞれのクレードについて「推論の鍵」をたどったの結果,

1-1,2-1,4-1について,西北方面への「分布域の拡大(RE)」が

結論されています.

これらは順次包含されて行くシリーズであり,mtDNAのコアレセンスで

その時間的展開がうまく記録され,解析結果に表現されているのだと

考えられます.

(少し分かりにくいかも知れませんが,このように時間的展開がうまく

記述できるのは,mtDNAのコアレセンス[末端から見て,分岐した

ハプロタイプが1つの祖先種にくっついて行く過程]と分布域拡大の

時間スケールが合っているからこそだと思います.)

クレード3-4の分布域拡大は,移住・定着によるもののようであり,

唯一ミシシッピ川の東岸(IL)へ移住した集団がそのクレードに含まれる

ハプロタイプをもっています.

(地図を出してこよう...)

州のだいたいの位置関係は,

という感じです(ずれずに示せているかな? 大体でいいのだけど).

クレード4-2の中にはKN→MNという分布域の拡大が,さらにその上位

(最上位)の階層では,TX・NM→KN・MNへの分布域の拡大が示されています.

これも上記と同様,mtDNAのコアレセンスに記録された,漸進的な

分布域拡大を示しているといえそうです.

以上は,Davis (1996) がオリジナル論文の中で考察していたものと

整合的だということです.

つまり,NCAは分布域拡大についてもうまく行きそうだと考えられ,

重要なのは,その推察が,客観的に,また操作的に行うことができる

ということです.

~~~

Discussion

ここまでで明らかになった通り,ハプロタイプの地理的分布構造に関して,

NCAは,伝統的なF統計量よりも,より高い統計的検出力をもち,

また正確な推定を行うができるといえます.

より重要な点は,NCAが地理的構造の「異なるパターン」を区別することが

できることです.

異なるパターンとは,もう言うまでもないでしょうが,「制限された遺伝子流動」,

「分断」,「分布域の拡大(連続的な拡大,および長距離移住を含む)」

の3つです.

最後の「分布域の拡大」が最も議論のあったところでしたが,実際の

「分布域拡大」が起こったと考えられる事例について検討した結果,

これについてもNCAの推論は結構いけそうでした.

実際には,Table 1の13例のうち,12例で「分布域拡大」が検出されました.

これはもしかしたら,単に「推論の鍵」で「分布域拡大」と導かれる可能性が

高すぎるためかもしれません.

その場合,間違った結論が多く含まれることを意味しますが,以下に

論じるように,幸い,そんなことはないようです.

13例について検討された99の「有意な」クレードにおいて,「分布域拡大」が

結論されたのは35例で,最も多かったのは「制限された遺伝子流動」,

そして若干の「分断」でした.

さらに「分布域拡大」の35例のうち34例が,もともと「分布域拡大」と

予想されていたものと関連していました(残るGalaxiasの1例も,あながち

間違った結論といえないかも知れないと論じられています).

つまり,「推論の鍵」による「分布域拡大」はリーズナブルであるといえる

ようです.

ここから面白い「メタ解析」(研究に関する研究)を試みています.

上の例は,分布域拡大が予想される13例のうち,12例で「推論の鍵」は

分布域拡大を結論しています.

今度は,このような「分布域拡大」が予想されない例(これまで取り上げた

ショウジョウバエやウシ類,あるいはヒトデの研究例など)を6つ検討します.

そうすると,5例で「分布域拡大」は結論されず,

という分割表を考えると,Fisherの正確確率検定でp=0.003で有意であり,

ショウジョウバエの2つのデータセットを1例として考えても,

p=0.008で有意になることを示しています.

比較の単位をクレードとして,上と同じく,事前の予測とNCAの結果を

分割表で比較してみると,こちらも有意になるようです,

つまり,分布域拡大が明らかに予測される場合に,NCAの「推論の鍵」は

きちんとそういう結果を出す傾向がある,ということになり,間違って

分布域拡大という結果を出やすい,ということはなさそうだと結論されています.

=====

それでは,今日はここまで.

次回でこの読み解きは最終回となる予定です.

いくつか私自身,疑問があります.

議論にお付き合いしていただければ幸いです.

2003.6.23

第10回

Templeton (1998) を読むー10,読み解きは最終回です.

=====

Discussionとして,さらに「分布域の拡大」の推論の妥当性の検討を

進めているところです.

前回(p.393右,中程まで)までは,「分布域の拡大」を導く「推論の鍵」が

妥当であることを,状況のよく分かった対象に関するデータセットについて

実際的に検証を行なってきました.

以下は,実例とともに,間違え得る,あるいは限界がある場合について,

述べられています.

Table 1の下から5番目のショウジョウバエD.buzzatiiの例では,

「歴史的イベント」は検出されなかったようです.

南米からヨーロッパに植物に混じって人為的に移殖されたものです.

ヒトに関してCann et al.(1987)が示した「分布域拡大」で見られるパターン

(「推論の鍵」でも使われている)では,祖先の分布域で見られたハプロタイプ

の変異の一部だけが新しく拡大した分布域に入り込むことが必要であり,

その拡大分布域に見られる「末端クレード」に重要な意味があります.

(...実は英文が分かりません;placesという動詞の主語(3人称単数のはず)が

存在しないようです.The patterns... require ... and place(s?)...

というように解釈しました.おかしい場合,どなたかご教示ください.)

-----

(※)追加説明しておきますと(いまさらですが),「推論の鍵」によると,

「分布域拡大」は基本的に

・「末端クレードのクレード距離が大きいこと」(分散のため),

・「内側クレードのクレード距離が小さいこと」(居残るため),

・「内側-末端Dcが小さいこと」(末端の分布が広い)

(3つはand/orで結ばれます)で特徴づけられ(キーの11),

さらに,

・「クレード距離が階層クレード距離よりも大きくなる」と長距離移住

が推定されます(キー12~14).

・「クレード距離と階層クレード距離の大きい/小さいが有意に逆転すると 」

と「長距離移住」か「分布域拡大後の分断」が推定されます(キー12~14).

(少し分かりにくいですが,第7回の説明や以下も参考にしてください.)

<間違っていました;2007/3/5修正>

-----

注釈が長くなりました.

さて,新しく拡大した分布域(移住場所)に「末端クレード」が現れるには,

2つの場合があり得ます.

(注:もう混乱はないかと思いますが,「末端クレードが現れる」とは,注目する

階層レベルの単位はクレード(最初はハプロタイプ)なので,このような表現が

なされます.

厳密には,その「末端クレード」に含まれるハプロタイプが現れる,ということ

です.)

まず,(1) 1つ(以上)の末端クレードが,祖先集団から,分布域拡大集団に

入り込む(持ち込まれる)場合です(必ずしも起こるとは限りません;下記).

2つめは,(2) 分布域拡大の後,もとの場所と移住場所の間で遺伝子流動が

制限され,突然変異によって,主として移住場所に,あるいは移住場所にのみ

見られるような新しい末端クレードが生じる,という場合です.

これらのことを考えると,「分布域拡大」を導くキーは,次の場合には

機能しないはずです.

つまり,移住が極端な創始者効果(少数個体)のもとで行われ,移住集団に

そもそも末端クレードが含まれなかった(少なくとも生き残らなかった)ような

場合です((1)が起こらなかった).

あるいは,移住が最近過ぎて,新しい突然変異が起こっていない場合です

(上記の(2)があり得ません).

前置きが長かったのですが,先に挙げたショウジョウバエD.buzzatiiの例は,

まさにこのような場合でしょう.

アルゼンチンからイベリア半島に移殖されたこのハエの場合,イベリア半島

からは1つのハプロタイプしか検出されませんでした.

これはまた,ハプロタイプ樹の真ん中の方(内側クレード)に位置づけられ,

祖国アルゼンチンでの最も多いタイプだったそうです.

確かに上記の基準からは,「分布域拡大」と導くことはできませんね.

別の例として,サルの1種の例が検討されます.

長距離移住が極端な創始者効果のもとで起こった例ということです.

ハエの場合と同様に,モーリシャスのサルは1つのハプロタイプ系列だけを

持っています.

祖先集団はインドネシア・フィリピン地域に分布(って本当? モーリシャスって

アフリカ・マダガスカルの方にあるやつでしょ? すごい長距離).

過去のタンパク質電気泳動分析と同様に,移住が極端な創始者効果のもとで

起こったことを支持しているということです.

ハエの場合と違うのは,モーリシャスの中ですでに突然変異が起こっていて,

新しい末端ハプロタイプが生じているという点です.

これは移住後に起こったようです.

サルの例では,ハエの研究よりも,地点も個体数も変異もみな少ないわけですが,

ちゃんと「長距離移住」は検出されています.

以上から,創始者効果が強く働いている(少数個体のみによる移住の)場合,

新しい突然変異が生じないほどのあまりに最近の移住に関しては,「鍵」は

「分布域拡大」を検出できない場合もあるだろう,と結論されます.

しかし,うまくいきそうもない特定の状況はあるものの,「推論の鍵」は

「分布域拡大」(連続的な分布域拡大も長距離移住も)を正しく導けるだろうと

考えてよさそうです.

さらに,これはさまざまな対象,空間・時間的スケール,また地点数や

サンプルサイズ,マーカーの分解能の広い範囲で通用しそうです(←Table 1).

~~~

「(ハプロタイプ樹からの)時間的な情報は,現在の遺伝的変異の

空間分布のより深い理解に貢献できるか?」というのが,この論文の

出発点だったわけですが,答えは明らかに“イエス”だといえるでしょう.

まず,FSTを使う方法と比べて,ハプロタイプ樹を用いたNigel &

Maddisonの方法は(内容は理解していませんが;),比較的大きなNmの場合を

含めて,より正確なNmを推定することが可能でした.

何よりも,NCAが,現在の集団構造(遺伝的交流の構造)と歴史的イベントを

区別できる点こそ,最も重要です.

さらにNCAは,統計的な枠組み,明快な推論基準,将来のサンプリングへの

指針,を提供します.

さらにさらに,NCAは,集団構造と歴史的イベントが,どのように絡み合って

今日の集団のあり方を形作ってきたのか,ダイナミックな時間的発展を

推定することを可能にします.

(まさに我々のやりたいことです.)

集団構造や最近の進化史の研究において,量・質ともにパワフルなツールだと

いえます.

ただし,NCAは,シングル・ローカスにしか適用できません.

このことは,ローカスごとの確率的な現象や淘汰圧などの影響を

受けてしまう可能性があることを意味します.

これを回避するためには,複数のローカスについて,同じ個体を使って

それぞれNCAを行なうという手があります(本文中に,ショウジョウバエの

AdhとAmyの両方の解析例が出ていました).

複数のローカスでの解析結果が一致すれば,その結果の信頼性は増すと

言えますが,将来的には単に一致性を調べる以上のことをしたいものです.

例えば,伝統的なFST分析では,アロザイム分析などでよくされるように,

多くのローカスをコンバインして,全体のFSTを求めることができます.

NCAにおいても何らかの手段でローカス情報を統合し,集団構造と歴史的

イベントを総合して推察するための方法が開発される必要があると言えます.

しかしながら,やはりローカス間での一致性を検討するだけでも,

「進化的な力」の研究に役立ちます.

例えば,FST分析において,ほかとは異なる傾向を示すローカスが,自然淘汰を

受けているものの候補となることがこれまでもサジェストされてきています.

このような候補を見いだすのに,NCAは効力を発揮するはずです.

複数ローカスの関するNCAと自然淘汰との研究の統合が,将来的な

課題の1つであり,これは集団構造・歴史と自然淘汰研究の両方にとって

パワフルなツールになるはずだ,と締めています.

「This is indeed an exciting prospect.」

=====

と,ようやく長かったTempleton (1998) の読み解きも終わりました.

「推論の鍵」は訳さなくてもよいでしょう.

NCAの神髄を理解するためには,このキーをTempleteon et al. (1995) なども

参照しながら理解することが重要なのですが,それは実際に使いながら

各々が進めるということでよろしいでしょう.

では,別便で,今後の進め方について提案したいと思います.

2003.6.25

おまけ1

NCA体験記--その1

遅ればせながら,私もNCAを試してみました.

ごく簡単に体験記を記します.

まずデータは単純なものをと,この間のIRに出た

ギギ科のmtDNAのデータのうち,どうにか適用が可能かな,と思われた

ギバチのデータを用いました.

実はハプロタイプ樹が単純すぎて,ハプロタイプのクレードが2つ,

1ステップクレードがすでに全体を含むもので,NCAの本当のだいご味は

味わえないものでした...が一通り,やって見ました.

まず,深夜,自宅のブロードで自分のHPにアップしたこのMLの

連載中にリンクしたTCSとGeoDisをダウンロード.

GeoDisのURLを間違えていることを発見→訂正しました.

PAUPのnexusファイルをいじって,exampleにあるような単純なnexusに

直し,TCSを起動.

これはやったことがあったので,簡単にnestingを終了しました.

(チラシの裏に書き写す...)

ただし,ハプロタイプ樹にホモプラシーによる網状(環状)部分が

あったので,後でもう一回,これをおそらく正しい方の“2分岐”に

直して再解析しました(当然結果は変わり,直した方の結果がよいように

思いました.).

次にGeoDis初体験.

このインプットファイルの仕組みを理解するのに,若干の時間と試行錯誤が

ありました.

添付のpdfのマニュアルの下の方に実際のファイル構成の詳しい説明があるので,

ちゃんと見れば問題ないでしょう.

大きなデータだと結構骨が折れる作業だと思います.

デフォルトのランダマイゼーションの繰り返しは1,000回でしたが,

今回の小さなデータだと,100,000回でもiBook-G3-500Mhzでも10~30秒で

解析が終わりました.

アウトプットファイルには,無作為化階層分散分析の結果が各クレードに

ついてリストされているだけでした.

あー,これを使って,自分で「推論の鍵」で結論を得なくてはならないのですね.

そこまで全自動でやってくれて,のみならず,論文によく出てくる角々した図が

出てくるのかと思ってた(甘).

さて,「推論の鍵」(Templeton et al., 1995; Templeton 1998;GeoDisの

ページからも最新版のpdfが落とせます)ですが,これが結構慣れるまで

理解が難しい.

なかなか進めない.

キーによっては判断に迷うところもあります.

...格闘の結果,ギバチの東北太平洋・日本海側に分布するクレードには

分布域の連続的な拡大(Contiguous range expansion)が関わっていて,

一方,関東に分布するクレードに関するハプロタイプ分布には,過去の分断

(Past fragmentation)が関係していそうだ,という結論が得られました.

後者はある固有のハプロタイプに固定した最西端の集団の存在が効いて

いそうでした.

何となく,リーズナブルです(?)

その上は...いきなり全体になってしまうのですが,関東の方を

内側クレードと仮定すると,東北方面への分布域の拡大(Range expansion),

特に長距離移住(Long distance colonization)という結論になりました.

これは少し地点数が少なすぎて,はっきりとしません.

以上,今回の体験版では,地点数(7)とハプロタイプ数(6)が少ないので

(特に後者),あまりぱっとした解析結果ではありませんでしたが,おおまかな

流れがつかめました.

面白かった.

(あー,何でハリヨ論文がMol.Ecol.で蹴られたとき(2000年),Berちゃん※の

サジェスチョンに従って,NCAをしなかったんだろ.確かもうソフトは出てたのにね;

ダウンロードはして,勉強しかけたのですが,後悔先に立たず).

※L.Bernatchez@Universit Laval

大規模なハプロタイプ樹だと結構たいへんだと思いますが,

高橋さん,経験上いかがだったでしょうか?

あるいは,上記にまずい点,改善すべき点があれば,ご教示ください.

あと,Templeton (1998) の最初の方に出てきた分割表の検定の結果が

GeoDisでも最初に出力されますが,キーには反映されませんよね.

まあ,ここでハプロタイプの地理的分布の偏りが有意でなければ,

DcやDnなどが有意になることはないのでしょうね.

2003.6.19

高橋さんからのレス:

渡辺様,皆様,

山口は現在台風で大荒れです。

実習場の池・ボートの見回りに追われております。

さて,

渡辺> ただし,ハプロタイプ樹にホモプラシーによる網状(環状)部分が

あったので,後でもう一回,これをおそらく正しい方の“2分岐”に

直して再解析しました(当然結果は変わり,直した方の結果がよいように

思いました.).

修正はTCSで構築されたネットワークの環状構造部分を,

ソフト上で切って2分岐にされたのですよね。

環状構造が多いとNCAのI‐T比較が出来ないので,

2分岐にしたほうがより有意な解析結果を得られやすいと思います。

ところで,おそらく正しい方,というのはどうやって判断されたのですか?

渡辺>大規模なハプロタイプ樹だと結構たいへんだと思いますが,

高橋さん,経験上いかがだったでしょうか?

GeoDisのインプットファイル作成は確かに面倒くさいですね。

インプットファイルの間違っている箇所は,GeoDisで読み込んだ際に

エラーメッセージで指摘してくれる場合があります。

いずれにしろ,個体数,ハプロタイプ数が増えれば増えるほど,面倒くさくなります。

Total Cladogramまで行き着いた時点で,各地点の合計個体数がずれてたりすると,

一から見直しでつらいです。

TCSから一発でGeoDisのインプットファイルにコピーできるアウトプットにして欲しいですね。

※ちなみに,TCSのnestingは,なぜかWin MEでは走ってくれません(僕のだけかな…)。

Win 2000,Mac OSでは走ってくれるようです。XPはどうでしょうか?

GeoDisのアウトプットファイルは渡辺さんががっかりされたように,

各階層クレード毎の分割表のカイ二乗検定結果と,

各距離の無作為化検定の結果がリストされているだけのシンプルなものですね。

渡辺>あと,Templeton (1998) の最初の方に出てきた分割表の検定の結果が

GeoDisでも最初に出力されますが,キーには反映されませんよね.

まあ,ここでハプロタイプの地理的分布の偏りが有意でなければ,

DcやDnなどが有意になることはないのでしょうね.

まず,各クレード毎に,分割表検定の結果が有意かどうかを見て,

有意でないクレードはその時点で解析を終えます(捨てる)。

ここで有意差が出ない場合は,クレード内のハプロタイプが地理的にランダム分布している,

もしくはサンプリングデザインが悪い,ということですね。

有意差が検出された場合のみ,各距離データの無作為化検定の結果を見ながら,

「推論の鍵」をスタートすることとなります。

なお,各距離の無作為化検定の結果は,有意に長い,有意に短い,2つの棄却率が出ます。

シンポジウムでは,これらのソフトに関して実演しても良いかもしれませんね。

高橋 洋

2003.6.19

渡辺からの返事

高橋さま,みなさま

京都は嵐の前の静けさ...

高橋さん,コメントありがとうございました.

渡辺>>ただし,ハプロタイプ樹にホモプラシーによる網状(環状)部分が

あったので,後でもう一回,これをおそらく正しい方の“2分岐”に

直して再解析しました(当然結果は変わり,直した方の結果がよいように

思いました.).

高橋さん>修正はTCSで構築されたネットワークの環状構造部分を,

ソフト上で切って2分岐にされたのですよね。

環状構造が多いとNCAのI‐T比較が出来ないので,

2分岐にしたほうがより有意な解析結果を得られやすいと思います。

ところで,おそらく正しい方,というのはどうやって判断されたのですか?

ソフト上で切ろうとしたんですが,枝は切れても,ネスティングが

変わらなかった(ような気がする)ので,データを少しいじりました

(とりあえず反則;).

“おそらく正しい方”というのは,...これもとりあえず反則なのですが,

地理分布パターンから,シンプルに説明される方を選びました.

(もしお手持ちでしたら確認ください:Fig.2のA-Dの枝を切りました.)

もちろん体験のための便宜的な方策です.

高橋さん>TCSから一発でGeoDisのインプットファイルにコピーできるアウトプットにして欲しいですね。

※ちなみに,TCSのnestingは,なぜかWin MEでは走ってくれません(僕のだけかな…)。

Win 2000,Mac OSでは走ってくれるようです。XPはどうでしょうか?

Javaが“なぜか”うまく走らないのは,Arlequin2.0などでもよく起こりますね;

渡辺>>あと,Templeton (1998) の最初の方に出てきた分割表の検定の結果が

GeoDisでも最初に出力されますが,キーには反映されませんよね.

まあ,ここでハプロタイプの地理的分布の偏りが有意でなければ,

DcやDnなどが有意になることはないのでしょうね.

高橋さん>まず,各クレード毎に,分割表検定の結果が有意かどうかを見て,

有意でないクレードはその時点で解析を終えます(捨てる)。

ここで有意差が出ない場合は,クレード内のハプロタイプが地理的にランダム分布している,

もしくはサンプリングデザインが悪い,ということですね。

有意差が検出された場合のみ,各距離データの無作為化検定の結果を見ながら,

「推論の鍵」をスタートすることとなります。

キーによれば,DcやDnで判断することになっているようですが,結局同じことかも

しれません.

それでは取り急ぎ,また!

2003.6.19