木立研究室では、人工知能・機械学習などの高度な情報技術を用い、爆発的に増え続ける生物データを計算機で解析し生物学的発見を行う、バイオインフォマティクス(生物情報学)研究を行なっています。また、このような解析で必要となる、計算機上の生物モデルの構築にも力を入れています。
1990年代に初めて生物の全ゲノムが解読されてから、これまで微生物からヒトまで数千の生物種についてゲノムの解読が行われました。大規模なデータ計測の対象は、ゲノム配列にとどまらず、RNA、タンパク質、代謝物質、DNAの化学修飾、細胞動画像、など、生命活動を構成するさまざまな要素へ広がっています。しかし、これらの大量データの包括的な解析は始まったばかりで、まだまだ多くの課題が残されています。
私たちは、人工知能・機械学習技術を用いて、生命の高度な数理モデルを構築することにより、統合されたシステムとしての生命の深い理解や、生命を細胞レベルで自在に制御する技術につなげることを目指しています。
一細胞解像度の遺伝子発現データから細胞分化進行度を推定
シーケンシング技術の進歩により、様々な条件下で細胞がどのような遺伝子を活性化するか、を網羅的に計測できるようになっています。特に最近ではー細胞RNA-seq法により、数万の細胞の一つ一つについてRNA活性プロファイルを測定することが可能になりました。私たちは、まず、オルンスタイン・ウーレンベック過程と呼ばれる確率過程で細胞の内部状態をモデリングし、その未知パラメータを機械学習により最適化する手法を開発しました。次に、刺激を与えられた細胞の分化過程のー細胞RNA-seqデータにこの手法を適用し、各細胞の分化進行度を推定する新しい技術を開発しました。
植物生長データからマクロな環境要因とミクロな細胞状態との相関をモデリング
現在、細胞レベルの多様なデータが爆発的に蓄積しています。しかし、これらのミクロスコピックなデータから、生体組織の特性や個体の行動など、生物のマクロスコピックな性質を予測することは現時点ではほとんどできていないのが現状です。一方、一般に植物は、動かないため動画による形態計測が比較的容易で、また遺伝子発現データと外部環境(気温、雨量、日射量等)との相関が見やすいなど、数理モデリングがしやすい特徴を備えています。そこで私たちは、制御工学の分野で発展し飛行機自動制御やカーナビで用いられている、カルマン・フィルターの理論を、現代のデータサイエンスの時代に適した形へと刷新し、イネなどの植物のミクロの細胞状態とマクロの環境要因とを機械学習により関係づける手法の開発を行っています。
がんゲノムの進化モデリングによる、がん進行履歴の推測
がんは、細胞が無制限に増殖する病気であり、DNAへの変異の蓄積がおもな要因です。多くのがん種では、細胞分裂のたびに、ゲノム中にさまざまな塩基変異を蓄積します。この、がんゲノムの変化の過程は、生物種分化の際のゲノム進化と似ており、進化学や遺伝学の手法を用いて、がんの進行過程を調べることができます。私たちは、集団遺伝学で使われるライト・フィッシャーモデルや合祖理論を用いて、がんゲノムのシーケンシングデータから、がんの増殖過程を推定する手法の開発を進めています。また、推定された、がん組織の定量的なデータからがんが転移・再発する確率を予測する手法、の開発を目指しています。
RNA構造の情報解析とエピ・トランスクリプトームの解明
DNAがもつ遺伝情報は、DNAからメッセンジャーRNAが転写され、さらにタンパク質へと翻訳されて、実際の生理的機能を発揮します。この反応過程は定常的ではなく、あらゆるステップで反応を促進したり遅らせたりする制御機構が働き、外部環境変化や刺激への柔軟な細胞応答が可能となっています。特に最近では、メッセンジャーRNAがタンパク質に翻訳される過程に働く様々な制御因子(RNA結合タンパク質の結合状態、RNAの化学修飾位置、RNAの二次構造)の測定が行われるようになり、翻訳制御の総体(エピ・トランスクリプトーム)を解明する研究が重要となっています。私たちは、確率文脈自由文法(SCFG)とよばれる情報科学理論に基づくRNA二次構造モデルと次世代シーケンサーからのデータを組み合わせることにより、RNAの化学修飾による二次構造変化や、RNA結合タンパク質が結合しやすい二次構造モチーフは何か、などを推定する手法を開発しています。(図1)
図1 RNAのアクセシビリティ計算ツールRaccessによるゲノムスケールの配列解析。
RaccessはRNAの領域が、上側のように、二次構造のない露出領域となる確率を計算するツールです。
発生と分化のバイオインフォマティクス
動物の胚発生では、受精卵の卵割に始まり、原腸形成、胚葉分化などを経て、臓器、骨、筋肉などが形成されます。このような動物のマクロスコピックな変化は、細胞内の転写ネットワークと生体環境との相互作用により、精密に制御されています。しかし、このような制御メカニズムを、転写因子結合・ヒストン修飾などのシーケンシングデータから推定する技術は、まだまだ未熟な状態です。 私たちは、数理生物学における、微分方程式を用いた胚発生モデルと、バイオインフォマティクスにおける、ベイズ推定に基づく遺伝子ネットワーク解析手法とを融合することにより、マクロスコピックな胚発生過程とミクロスコピックなシーケンシングデータとを関連付ける手法の開発を進めています。これを用いて、シーケンシングデータから、動物の発生過程の推定やシミュレーションを可能にすることを目指しています。