研究室のビジョン

バイオインフォマティクスは、大規模生命データを処理・解析することで、データに隠れている生命の振る舞いを人類が理解し解釈できるようにする学問です。いわばバイオインフォマティクスは、データを覗く顕微鏡や望遠鏡のようなものです。一方で、人類がデータから何を「みる」ことができるかは、現時点で利用可能なバイオインフォマティクスの技術・ソフトウェア・データベースによってその限界が規定されてしまいます。

私たちの研究室では、バイオインフォマティクスが人類にもっと多様な「眼」を提供できるという作業仮説に基づき、ヒトを含む様々な生物の仕組みや疾患や異常についての理解や解釈を大規模生命データから抽出することを目指し、新しいバイオインフォマティクス技術の開拓に取り組んでいます。

進行中のプロジェクト

新しく始めた、鋭意取り組んでいるテーマです。

シングルセルオミクスデータ解析のためのバイオインフォマティクス

シングルセル(1細胞)オミクス計測技術の登場により、細胞ごとに数百から数万という非常に高次元なデータが大量に生みだされるようになりました。これらのデータを可視化・データ解析するための技術を開発し、実データを解析することがバイオインフォマティクスのフロンティアとなっています。

1細胞トータルRNAシーケンシングのデータ解析

多くの1細胞RNAシーケンシング法ではポリA型RNAのみが検出されます。理化学研究所の林哲太郎研究員(理研・生命機能科学研究センター・バイオインフォマティクス研究開発ユニット)はポリA型・非ポリA型RNAの両方を測定できる1細胞トータルRNAシーケンシング法 RamDA-seq を開発しました。この研究では、RamDA-seqのデータの詳細に解析することで、ヒストンmRNA量や長鎖ノンコーディングRNA Neat1 のポリA型・非ポリA型アイソフォームの細胞分化に伴うダイナミクス、特殊なRNAスプライシング様式、エンハンサーの活性を反映するエンハンサーRNAの発現を世界で初めて1細胞レベルで明らかにしました。

Millefy: シングルセルオミクスデータのためのゲノムブラウザライクな可視化ツール

遺伝子やオミクスデータをゲノム座標に沿って表示させる可視化ツールは一般にゲノムブラウザと呼ばれます。シングルセルオミクス解析で一度に数百から数万個の細胞を計測・比較するため、それらを一覧できるゲノムブラウザが必要となります。そのために、Millefyを開発しました。Milefyではたくさんの細胞を一覧できるだけでなく、表示域内の局所的な特徴に基づいて細胞を並べ替えて表示させ、データのパターンについて気づきを得ることもできます。

MillefyはRパッケージまたはJupyter Notebook上で動かせるDockerイメージとして配布しています。

1細胞エンハンサーRNA解析

エンハンサー領域はゲノム上に数十万個程度存在する遺伝子制御領域であり、発生過程の時空間や組織・細胞型依存的な活性化パターンを呈することを介して複雑な遺伝子発現パターンを生み出します。近年、このエンハンサー領域からRNAが転写されることが発見されました。これをエンハンサーRNAと呼びます。エンハンサーRNAはエンハンサー領域の活性化パターンのインディケーターになると考えられています。

1細胞RNA-seqでは遺伝子発現量(mRNA)がわかっても、その上流の転写制御に迫るのが難しいという問題がありました。我々はエンハンサーRNAを1細胞RNA-seqで定量することで、遺伝子発現量とエンハンサー活性を同一細胞から同時計測して比較する解析手法を提唱しました。この1細胞エンハンサーRNA解析によって、遺伝子発現の細胞間不均一性とエンハンサーの関連を解明できると期待しています。

生存時間解析と1細胞RNA-seq解析組み合わせ

TCGAやICGCといった国際コンソーシアムの努力により、多様ながん種のがん組織由来のバルクRNA-seqデータにアクセスすることができるようになりました。これらのデータから、患者の予後と発現量が関連する遺伝子を探索する生存時間解析が数多く行われています。一方で、がん組織は、様々な細胞型の細胞が混在する不均一(heterogenous)な細胞集団です。そのため、このような解析のみでは、どの細胞型のどんな遺伝子の働きが重要かについてアプローチすることは困難でした。

我々は、リガンドおよび受容体(LR)をコードする遺伝子に着目し、この問題にアプローチしました。まず、患者の予後と関連するLRペアを膵臓癌のバルクRNA-seqに対する生存時間解析から網羅的に抽出しました。次に、これらの予後関連LRペアを、膵臓癌の1細胞RNA-seqデータに基づく細胞間相互作用推定の結果に重ねることで、どの細胞型ペアでの細胞間コミュニケーションを担いうるかを調べました。その結果、複数のLRペア・細胞型ペアが膵臓癌の予後に関連する可能性を見出しました。

1細胞空間トランスクリプトームデータからの細胞間相互作用推定生存時間解析と1細胞RNA-seq解析の組み合わせ

私たちの細胞は、様々な種類の細胞から構成されていて、それぞれが互いに影響を与え合いながら、発生過程が適切に進行するとともに、組織や臓器の恒常性が維持されています。一方、この細胞間の相互作用の異常が疾患につながる可能性もあります。

同じ細胞種でも、細胞ごとに発現が変動する遺伝子が存在します。こういった遺伝子は細胞の機能に関わるものも多く、細胞集団全体の機能や疾患発症にも影響を与える可能性があります。このような細胞間の遺伝子発現の変動には、細胞間相互作用が関連するものの、複数の細胞種が遺伝子発現に与える影響を網羅的に調べる方法はこれまでありませんでした。

そこで本論文では、CCPLSという解析手法を開発しました。この手法では、ある細胞種に着目した時、近傍の細胞種の種類と、それによる遺伝子発現との関連を推定できます。精度評価の結果、CCPLSは細胞間相互作用を高精度で推定可能で、実データへの適用からも具体的な相互作用を見つけられることがわかりました。CCPLSは創薬ターゲット探索などへの応用が期待されます。

研究自動化のための研究

ドライやウェットの研究における自動化を可能にする研究開発をおこなっています。

実験自動化ラボのための最適スケジューリング手法の開発

近年、生命科学研究における実験操作を自動化するロボット・機器が、様々な製薬企業や公的研究機関に導入されています。一方で、実験ロボット・実験自動化機器は、実験全体の一部の手順を自動化することが多いため、多種多様な一連の実験を効率的に完了させるためには、複数種類の実験ロボットを連携させることが肝要となります。この自動化機器を「いつ」「どのような順序で」動かすかを決めるのは人間の仕事でした。

我々は、自動化機器を「いつ」「どのような順序で」動かすかのが最適かを決めるスケジューリング手法「SLab」を開発しました。SLabでは、個のスケジューリング問題を混合整数最適化問題として定式化した上で、厳密解法である分枝限定法を用い求解します。SLabを複数のスケジューリング問題を適用し、最適解を求めることができることを示しました。さらに、このSLabを一種のシミュレーターとして活用することで、実験プロトコルや実験室の機器構成のデザインを支援できることをデモで示すことができました。

手軽な自動分注ロボットによる酵母スポットアッセイの自動化

生命科学実験の自動化が世界中で注目されています。従来の大型多機能ロボットに加え、シンプルな機能を持つ低コストなロボットを用いた自動化のニーズが高まっています。本研究では、液体分注ロボットを用いて、出芽酵母のスポットアッセイ(増殖能評価実験)の自動化システムを構築しました。寒天培地の高さ補正や増殖観察・定量の新しい手法を開発し、ロボットと連携させています。自動実験と人手実験を比較した結果、開発システムの実験精度が人間に劣らないことが示されました。本研究成果により、幅広い研究者が低コストで実験自動化を導入できるようになり、AIを活用した大規模実験自動化にも貢献できると期待されます。



ゲノムに潜む機能の解明

転写因子の認識多様性の理解

転写因子はゲノム上の特定の配列を認識・結合することで標的遺伝子の転写を制御しますが、生体内では典型的な認識配列モチーフでは説明のつかない結合部位が観察されます。

本研究では、転写因子結合部位を網羅的に計測するChIP-seqのデータから転写因子の認識配列を正確に抽出できる手法”MOCCS”を開発し、公開データを解析した結果、様々な転写因子で認識配列に"多様性"が許容されていることを明らかにしました。

MOCCSは GitHub で公開しています。

ヒトの転写因子が認識する配列の網羅的解析

ヒトの転写因子ChIP-seqを収集したデータベースChIP-Atlasのデータに、弊研究室で開発されたDNAモチーフ抽出手法 MOCCS を適用しました。この中で、転写因子や細胞型の違いによる認識配列の多様性について解析を進めるとともに、このデータを活用した応用研究に取り組んでいます。

過去の研究

時系列マルチオミクスデータの横断的データ解析

転写因子CLOCKは哺乳類の概日時計制御に中心的な役割を果たし、mRNA量の概日リズムを制御することが知られていますが、その全貌は未知でした。本研究では、マウス肝臓から一日の複数の時刻にサンプリングされた時系列CLOCK ChIP-seq、RNA-seq、small RNA-seqの横断的なデータ解析により、(1) 非典型的な認識配列への結合、(2) 標的転写因子を介した二次的な転写制御、(3) マイクロRNAを介したRNA干渉といった間接的な経路により、CLOCKが多数の遺伝子のリズミックな転写を制御することを示しました。吉種光助教・寺嶋秀騎博士(東京大学理学系研究科生物科学専攻深田研究室)との共同研究です。

遺伝子コピー数変異 (Gene copy number variation) の自然選択

遺伝子コピー数変異(Gene copy number variation; GCNV)はしばしば表現型に大きな影響を与えますが、GCNVが正の自然選択を受けるかについて決定的な証拠はありませんでした。本研究では、2集団の全ゲノムシーケンシング(WGS)データから集団間で差のあるGCNVを発見する手法を考案し、進化研究のモデル生物であるイトヨの海水・淡水集団のWGSデータに適用することで、GCNVが一塩基多型などと同様に正の自然選択を受けることを明らかにしました。平瀬祥太朗助教(東京大学大学院農学生命科学研究科附属水産実験所)との共同研究です。

その他のプロジェクト

学術変革領域(A)
「神経回路センサスに基づく適応機能の構築と遷移バイオメカニズム」
https://ac-census.org/outline/ 

AIDAC – データコラボレーション解析による生産性向上を目指した研究開発 datacollab.cs.tsukuba.ac.jp/