オーファン遺伝子の起源解明
オーファン遺伝子は、他の生物との間にホモログが見出されない遺伝子と定義され、その生物種もしくは特定の系統のみに存在すると考えられている。ゲノム解読が進んだ現在、オーファン遺伝子は例外なく全ての生物に存在することが示されているが、それらが進化に与えるインパクトの大きさは依然として不明である。そこで本研究は、このオーファン遺伝子の機能的・進化学的意義の解明を目的とする。我々は、実際に転写されているという発現情報を指標として信頼性の高いオーファン遺伝子群を抽出すし、この遺伝子群を対象に進化的起源の探索を進めている。
タンパク質の収斂進化
収斂進化(収束進化)とは生物がある環境に適応する課程で似た体の形態や性質を獲得する現象である。しかしながら収斂現象自体はタンパク質のような分子レベルでも起こっていることが報告されている。我々はタンパク質の収斂進化が種の進化に及ぼす影響を解明したいと考え、大量の遺伝子データを用いて未知の収斂タンパク質を検出する方法の開発を進めている。
ドメインシャッフリングが進化に及ぼす影響
ドメインシャッフリングは生物が新たな機能を獲得し、環境に適応していく重要な役割を担っていると考えられるが、詳細については不明な点が多い。我々は、他の進化イベントとドメインシャッフリングの相乗効果について調査している。
全自動でアレルをフェージングするプログラムの開発
これまで、各アレル配列を分離する「フェージング」の工程は手作業を伴うため、その効率化が解析工程の技術的な課題であった。我々はロングリードシーケンスを用いて、遺伝子配列をアレル配列ごとに自動的にフェージングするソフトウエアAlleleMinerを開発した。現在はカンキツゲノムを対象に効果を検証している。
オーソログデータセット作成プログラムOrthoPhy IIの開発
これまでに開発したOrhtoPhyについて、新たに階層的分類情報を扱えるようにするなど、機能の拡充を進めている。
長枝バイアスのメカニズム解明
長枝バイアスの発生メカニズムを解明すべく、分子進化シミュレーションの新しいフレームワークを開発し、調査している。
タンパク質立体構造情報を活かした系統樹推定精度の向上
我々のこれまでの研究から、マルチプルアラインメントに含まれるエラーが、長枝バイアスを誘発する主要な原因の一つであることが明らかにされている。一方で、タンパク質の高次な立体構造は、その一次配列であるアミノ酸配列と比較して進化的な保存性が格段に高いことが広く知られている。この事実に着目し、本研究ではタンパク質の立体構造情報を活用してマルチプルアラインメントの精度を向上させ、それによって長枝バイアスの根本的な問題解決を目指した研究をおこなっている。
分子進化シミュレーションによる長枝誘引の調査と「長枝バイアス」の提唱 (2015-2023)
長枝誘引(Long Branch Attraction: LBA)は、系統樹推定において、進化的に遠縁な二系統がそれぞれ長い枝を持つ場合に、誤って近縁と見なされてしまうアーティファクトである。LBAの発生条件や回避策に関する研究は進展してきたものの、依然としてその完全な抑制は困難な課題として残されている。この問題意識に基づき、本研究ではLBAの根本的なメカニズムを解明し、その知見を応用した新たな検出・回避システムの構築を最終目標としている。研究の第一段階として、我々は「分子進化シミュレーション」という、進化の正解データが得られる手法を導入した。その結果、LBAは特定の長枝配置に限定されず普遍的に発生しうること、そして、系統樹のトポロジー(樹形)の変化のみならず、枝長の推定にも特徴的なバイアスを及ぼすことを見出した。この発見から、我々はLBAをより広範な現象として捉え直し、「長枝バイアス(Long Branch Bias)」という新たな概念を提唱した。
オーソログデータセット作成プログラム Ortholog-Finderの開発(2008-2016)、OrthoPhyの開発(2017-2023)
今までに公開されているオーソログデータベースは機能予測などには有用だが、パラログも含まれているために系統解析には適していない。以前の我々の研究で系統解析に使用できるデータセット作成を作成したが、手作業が必要だった為、非常に時間と手間がかかっていた。そこで本研究では新たにパラログやゼノログを検出・除去する機能を備え、全自動でオーソログデータセットを作成するプログラムを開発した(Ortholog-Finder)。さらに解析対象生物の分類情報を与えることで、よりパラログ除去の性能を上げ、且つ内部のアルゴリズムを刷新することで高速化も実現した (OrthoPhy)。
バクテリアゲノム情報から全自動で系統解析するプログラム Genome Identifier の開発(2018-2019)
未知のバクテリアゲノムを決定しても、そのあとの遺伝子領域推定、アノテーション、オーソログ遺伝子同定、系統解析など、そのバクテリアの道程には多くのプロセスが必要である。この一連のプロセスを全自動化し、対象生物の近縁種を含んだ系統樹を自動的に作成できるプログラム( Genome Identifier)を開発した。
シアノバクテリアの窒素固定の起源解明(2016-2021)
酸素発生型の光合成能力を持つことで知られるシアノバクテリアは窒素固定できるものとできないものがおり、系統的にはモザイク状態になっている。そのため、起源について諸説あり、議論が続いている状態だった。私たちのグループでは窒素固定関連遺伝子群の分子系統解析やシンテニー解析などを通じて、その起源を明らかにした。
遺伝子水平伝播シミュレーションプログラム(HGT-Gen)の開発 (2010-2011)
遺伝子水平伝播は原核生物の進化において、ありふれたイベントの一つである。従って、原核生物の分子系統解析を行う際、遺伝子水平伝播の影響は無視できない。これまで遺伝子あるいはタンパク質の配列の進化シミュレーションによって作成するプログラムは多数開発され、新規系統解析法の開発などに用いられてきた。しかし、遺伝子水平伝播を考慮したシミュレーションプログラムは存在しなかった。そこで我々は新たに遺伝子水平伝播シミュレーションプログラム(HGT-Gen)を開発した。このプログラムは入力した有根系統樹に対し、水平伝播遺伝子の供給元(ドナー)と供給先(アクセプター)の相対的進化時間が合うように水平伝播を起こした系統樹を作成することが出来る。このプログラムは水平伝播遺伝子を含むと仮定される大量遺伝子データセットを用いた系統解析法の開発などに役立つと期待される。
マウスDMR(Differentialy methylated region)の特徴の検出 (2007-)
ゲノムメチル化はゲノムインプリンティングの原因となる現象の一つであるが、まだどのようなメカニズムでメチル化される領域がメチル化酵素によって認識されるか分かっていない。現在は休止中である。
大量オーソログを用いた全原核生物門の系統解析 (2004 - 2007)
全原核生物門の系統関係では多数の遺伝子水平伝達や重複遺伝子の欠失の影響により、正確な系統樹作成が非常に困難だった。私はこの問題を克服すべく、MBGDのデータセットを元に独自の方法で共有遺伝子配列データセットを作成した。次に得られた配列データセットを連結し、系統樹(連結系統樹)を作成した。従来は一般的にブートストラップ検定で分岐パターンの信頼性が評価されていたが、この方法は個々の配列の長さにより評価に対する寄与が異なる欠点がある。そこで私は個々の共有遺伝子配列データで系統樹を作成し、それらによって連結系統樹の分岐点の分岐パターンが支持される割合を「分岐点支持率」と定義し、評価を行った。本解析により確からしい全原核生物門の系統関係を示し、それぞれの分岐点の信頼性も正確に評価した。
オーソログの数を基にした系統樹解析による真核生物解明の起源解明 (2002 - 2004)
我々の以前の研究により、真核生物の核は古細菌の真正細菌への共生に由来する事が示唆されたが、具体的に共生に関与した生物について言及できなかった。本研究ではゲノムプロジェクトが終了した生物の全推定ORFを用いて、すべての生物間のオルソログの数から距離ら距離行列を計算し、近隣結合法で系統樹を作成した。この時、より正確を期すため、種分岐後に遺伝子重複したORFをグループにまとめ、生物間で共有されるオーソロググループの数を計算した。真核生物のデータはあらかじめ古細菌もしくは真正細菌に有意に相同性が高いものを選び出し、これらのデータを分けて解析を行った。古細菌由来の真核生物ORF群はピロコッカス、真正細菌由来のORF群はγプロテオバクテリアと近隣であるという結果が得られ、それぞれの機能が核、細胞質におよそ対応していることから、これらの生物が真核生物形成時に共生したのではないかと推測した。
Homology-Hit法を用いた真核生物解明の起源解明 (1998 - 2002)
従来、真核生物、真正細菌、古細菌の関係を示した系統樹の樹形は解析に使用するタンパク質の機能により様々で、しかもそれらのタンパク質は任意に選ばれたものでは無かった。一方、ゲノムプロジェクトが終了した全ての生物の全推定ORF(Open Reading Frame)配列データを用いた比較解析が行われるようになってきたが、それらの研究は1対1の比較が殆どだった。我々は全ゲノム配列が明らかになっている酵母とバクテリアのORFデータを用いて、真核生物、真正細菌、古細菌の3つの生物群における進化的な関係を明らかにするために、Homology-Hit法を開発した。この方法は多くの遺伝子(ORF)群間でさまざまな閾値での相同性検索(BLAST)を行い、相同性のある遺伝子数を算出する事で、多数の遺伝子群の相同性をまとめて評価できる。本解析では細胞寄生性細菌を除く15種のバクテリアのORFを機能別に分類された酵母のORFと比較し、酵母の持つそれぞれの機能の由来を考察した。その結果、遺伝情報系の遺伝子群は古細菌ORFと、代謝系遺伝子群は真正細菌ORFと、それぞれ相同性の高い遺伝子を多く共有することが分かった。これらの結果は、真核生物の核は古細菌の真正細菌への共生に由来する事を示唆する。
脊椎動物ゲノムのアイソコア構造と体温の関係 (1996 - 1998)
以前の哺乳類、鳥類、両生類、魚類のゲノムデータを用いた研究により、哺乳類と鳥類(恒温動物)、両生類と魚類(変温動物)との間でゲノムのアイソコア構造(isochore structure)に違いがあることが示されていた。このため、アイソコア構造の違いは動物の体温の違いによると考えられてきたが、爬虫類ゲノムについては不明であった。我々は一連の研究により爬虫類が恒温動物タイプのアイソコア構造を持つことを示した。さらに異温性動物(周期的に体温が変化する恒温動物)としてカッコウとコウモリ、変温動物として生息温度の異なる3種のヘビのαグロビン遺伝子の塩基配列を決定し、コドン第三位のGC含量(GC3)とコドン使用頻度を計算した。これらのデータにデータベースに登録されている既知のαグロビン遺伝子配列データを加えて主成分分析した所、体温とコドン使用頻度に相関は無く、爬虫類誕生以降にアイソコア構造が変化したことが示唆された。