ゲノムワイド解析による新しい分子系統解析手法の確立

(Last updated Nov. 11, 2012)

国立科学博物館が所有する次世代シーケンサー(Roche GS Junior)

従来型分子系統解析法の功績と限界

サンガー法によるDNA塩基配列決定法が普及し、標準化された手法で簡便に分子系統樹が得られるようになったことで、この20年ほどの間に生物多様性の記述やその進化史の可視化は劇的に進みました。その最たる例としてはTree of Life WebプロジェクトBarcode of Lifeプロジェクトが挙げられます。

一方で従来の分子系統学的手法の限界も明らかになって来ました。例えばアフリカ大陸で急速に適応放散し、驚くべき種多様性を誇るカワスズメ科魚類の系統進化のパターンを通常の分子系統学的手法でたどるのは困難であり、また通常DNAバーコード領域として用いられているミトコンドリアCOXI領域などを用いても多くの種の識別には成功しないことが分かっています(1)。同様の例は、動物ほど進化速度の大きい汎用遺伝子領域を持たない植物ではより深刻であり、これまでに提唱されている限りにおいては種レベルでのDNAバーコーディングの成功率は高くありません(2)。特に、比較的種分化の歴史が浅い種群においてその系統関係を少数の遺伝子領域から推定することはほぼ絶望的です(3)。したがって生物多様性の研究がより汎用性を獲得し核心に迫るためにも、方法論的ブレークスルーが求められていると言えます。

次世代シーケンサーにより分子系統学をゲノム系統学へ

近年生命科学の様々な分野で、DNA塩基配列解析を従来の500倍以上の効率で行える次世代シーケンサーが普及しはじめました。しかし一度の解析に大きなコストがかかることや、機械購入のための初期投資の予算が確保できないなどの理由により、自然史研究への取り入れは未だに進んでいません。しかし大量の配列を一度に出力するという次世代シーケンサーの性質は、原理的には大量の標準化された配列情報を扱う自然史研究と親和性が高いはずであると私は考えています

そこで自然史研究、特に集団や種の系統関係を解明する手段としての分子系統学に必要なデータを大量かつ少コスト、少労力で得るための標準的方法論を確立することを目指しています。また次世代シーケンサーを自然史研究分野に広く利用するためのモデルとなる研究を、日本で著しい固有種の多様化を遂げた被子植物のグループであるユキノシタ科チャルメルソウ属および、ウマノスズクサ科カンアオイ属を用い提案します。

本研究が目指すことは単純明快です。すなわち、まず従来の手法の100-1000倍の塩基配列量のデータを用いる系統解析の標準的手法を確立することで、系統樹を得るための情報量を飽和させます(図1)。その結果、従来の分子系統解析手法でほとんど解像度が得られなかった近縁な種の系統関係を理論的限界までの高解像度で得ます(図2)。究極的には、得られた高解像度系統樹から再び配列データにフィードバックすることにより、研究対象とした急速に多様化を遂げた分類群において(例えばアフリカのカワスズメ科魚類においてほぼ唯一種間で分化が見られるオプシン遺伝子のように)種を識別するための数少ないDNA バーコード領域を探索し、検出することもできるかもしれません。

※本研究課題を達成すべく、平成24年度より2年間、学術研究助成基金助成金:挑戦的萌芽研究 「次世代型分子系統解析の標準手法の開発:急速な適応放散史の可視化に向けて」(助成予定金額:4,030,000円)が交付されています。

倍数体の起源の解明と倍数化前のゲノム構造の復元法の開発

ところで生物進化の過程において、遺伝子のセット(ゲノム)が全て倍化する現象は、全ゲノム重複、あるいは倍数化と呼ばれ、私たちヒトに至る脊椎動物の進化を含め、さまざまな生物群の進化の過程に関与していると考えられています(4)。全ゲノム重複はここの遺伝子への自然選択が緩むことにより遺伝子に新規機能が獲得されるなど、さまざまな進化的新規性の起源と考えられており(5)、それが実際の進化に与えた影響を解明することは進化のメカニズムの理解に必要不可欠です。そのためにはまず、実際に生物が辿ってきた倍数化の歴史を系統学的手法により明らかにする必要があります。

葉緑体DNAや核リボゾーム遺伝子を用いる通常の系統解析と異なり、倍数化の歴史や倍数性の起源を解明するための分子系統解析には核ゲノムにコードされて いる「シングルコピー遺伝子」を用いる必要があります。シングルコピー遺伝子とは、核遺伝子の大部分を占めている、半数体ゲノムDNA当たり1分子(1コ ピー)しか無い遺伝子を指します。シングルコピー遺伝子は、倍数性に応じたコピー数がゲノム中にコードされており、それぞれのコピーは倍数体ゲノムが由来 する祖先ゲノムから受け継がれます。従って原理的には、この倍数体ゲノム中の塩基配列と近縁2倍体種の塩基配列との関係を解析することで、倍数体が1)何 度の倍数化イベントによって、2)どのような祖先種から起源したか、3)異質倍数性由来か同質倍数性由来かといった問題に答えが与えられるはずです(図 3)。

図3:同質倍数性と異質倍数性の樹形による識別。同質倍数体では,重複した2つのコピーがお互いに姉妹関係になるのに対し、異質倍数体では2つのコピーはそれぞれ別の2倍体種と姉妹関係になる。

実際にこのような解析を全種が4倍体であるチャルメルソウ節とそれに近縁な2倍体種とで行ったところ、複数の遺伝子の間で系統樹の形が食い違う結果が得られました。一般に複数の遺伝子領域を用いた系統解析で、今回のように遺伝子領域ごとに結果が安定しないようなケースでは、全てのデータを統合してより大きなデータセットとすることによって、より信頼できる系統仮説を得ることが試みられます。しかしながらデータの中に4倍体の種が含まれている場合はこれが困難になります。

少しこの問題は分かりづらいので、図4に示したように2種類の遺伝子を解析することを考えてみましょう。2倍体種であれば、統合データセットは単純に遺伝子1と2の配列をつなぐだけで得られます。一方の4倍体種では、倍数性に対応してそれぞれ2種類の配列(AとB)があるために、どちらの配列同士をつなげば良いかを事前に決めることが不可能です。

図4:複数の遺伝子領域データの結合に伴う問題。 倍数体を含んでいる場合、データを結合する組み合わせは遺伝子領域数がn個のとき2n-1通りある。

私はこの困難に直面して実に2年以上も悩んだ末に、極めて単純な解決法を考案し、発表しました(6)。すなわち、統合する組み合わせが分からないならば、全て試して最も良いものを選んでしまえばいい、というものです。「最も良い」かどうかは、系統解析においては系統樹の尤度スコアなどで評価することができます。まだこの手法はアイデアだけで、実施したデータセットもごく単純なもののみですが、もし今後の系統解析プログラムにおいて自動化が実装されれば、倍数性の起源を簡便に推定できるようになるはずです。また倍数体とそれに近縁な2倍体との間でこの手法をゲノムワイドに応用すれば、倍数体が倍数化する以前のゲノム構造を復元することにもつながるでしょう。

引用文献

  1. Seehausen, O. 2006. African cichlid fish: a model system in adaptive radiation research. Proc. R. Soc. B. 273: 1987–1998.

  2. Fazekas, A. J., Burgess, K. S., Kesanakurti, P. R., Graham, S. W., Newmaster, S. G., Husband, B. C., Percy, D. M., Hajibabaei, M., Barrett, S. C. H. 2006. Multiple multilocus DNA barcodes from the plastid genome discriminate plant species equally well. PLOS One 3: e2802.

  3. Meudt H., Lockhart, P. J., Bryant, D. 2009. Species delimitation and phylogeny of a New Zealand plant species radiation. BMC Evol. Biol. 9: 111.

  4. Otto SP. 2007. The evolutionary consequences of polyploidy. Cell 131: 452–462.

  5. Ohno, S. 1970. Evolution by gene duplication. George Allen and Unwin, London, UK.

  6. Okuyama, Y., Tanabe, A., Kato, M. 2012. Entangling ancient allotetraploidization in Asian Mitella: An integrated approach for multilocus combinations. Mol. Biol. Evol. 29: 429–439.

戻る