研究内容
研究概要
身の回りにある様々な現象(自然現象・人工現象)は,無数の要素が相互作用した結果として発生しています。様々な現象を簡単に記録できる現代では,ほとんど全ての現象を記録することが当たり前のようになってきており,記録された情報によって複雑な現象のメカニズムを次々と簡単に解明できると考えるかもしれません。全ての情報を記録できることはもちろんメリットとなりますが,反面,そのデータ規模の膨大さのために,全ての情報を調査したり,知りたい情報や規則を抽出したりするには膨大な時間や研究コストを必要とする新たな問題が発生しています。また,多数の要素が複雑に相互作用する現象から,その背後にある規則を発見する場合,結論の候補となる規則の組み合わせが爆発する問題が発生し,結論を導けないことが多々あります。私は,大規模な観測・蓄積情報から,相互作用のある複雑な現象を支配する規則を抽出する方法を研究しています。さらには,生命に関わる情報(生物学・医学・薬学のデータ)から疾病メカニズム解明や新薬発見への応用、また、無機結晶構造データを用いて効率的に材料設計するための応用研究に取り組んでいます。
効率的な材料設計のための統計的機械学習法(2014年~現在)
ナノスケールの計測技術および第一原理計算に基づく生成エネルギー計算技術をはじめとしてナノ構造解析の周辺分野が目覚ましく進展しており、様々な元素および結晶構造の組み合わせに対して、それぞれ物理特性や材料特性が計測・計算されています。こうした状況において,新規の材料設計のために、現在所有するデータから有用な情報の効率的な抽出、また、未知材料の特性値を予測するデータ解析法に対する期待が高まっており、これらの課題解決のための機械学習法を研究しています。
多様なネットワークの解析法(2008年~現在)
膨大な数および種類の分子から構成される生命は,遺伝子や蛋白質などの分子間の相互作用ネットワークから構成されており,このネットワークのシステムを理解する必要があります。分子間の相互作用には,様々な種類があります。例えば,遺伝子の転写制御関係,蛋白質間相互作用,代謝経路のようなネットワークの知識が蓄積されており,それぞれのネットワークに関する全情報の研究は,トランスクリプトーム,プロテオーム,メタボロームと呼ばれ盛んに研究されています。もちろん,それぞれのネットワークを理解することは重要な課題となりますが,細胞内において全種類のネットワークが区別なく複雑に絡み合った状態でシステムとして機能しているために,これらを統合的に扱う情報解析技術が必要となります。この研究では,こうした生命科学の問題に取り組むためのデータマイニング法を開発しています。
リンク構造によってノード性質の解析
A Variational Bayesian Framework for Clustering with Multiple Graphs
Motoki Shiga, Hiroshi Mamitsuka
IEEE Transactions on Knowledge and Data Engineering, vol.24, no.4, pp.577-590, 2012.Efficient Semi-Supervised Learning on Locally Informative Multiple Graphs
Motoki Shiga, Hiroshi Mamitsuka
Pattern Recognition, vol. 45, issue 3, pp.1035-1049, 2012.
多様な形式の生命情報の解析法(2008年~現在)
分子生物学で取り扱う情報は,多様な形式となっているので,数値化が簡単にできない場合があります。例えば,グラフ構造(トポロジカルな情報)を一意に変換することができないので,グラフで構造が与えられる化合物や糖鎖の情報を扱うには,工夫が必要となります。多様な形式の情報に対して,高感度な情報解析を高速に実行するための研究をしています。
クエリ―化合物
順位1
順位2
順位3
図:圧縮されたデータを用いた類似度ランキングの結果
化学構造の高速データマイニングのための特徴ベクトルTFSの圧縮法
志賀元紀, 高橋由雅
Journal of Computer Chemistry, Japan (JCCJ), vol.11, no.2, pp.104-111, 2012.Mining Significant Tree Patterns in Carbohydrate Sugar Chains
Kosuke Hashimoto, Ichigaku Takigawa, Motoki Shiga, Minoru Kanehisa, Hiroshi Mamitsuka
Bioinformatics, Vol.24, i167-i173, 2008.
遺伝子発現量の解析法(2006年~現在)
遺伝子発現量とは,細胞中で機能している遺伝子の量(多さ)の測定値のことです。細胞中において遺伝子の情報を用いてタンパク質が合成され,合成されたタンパク質によって,代謝反応やシグナル伝達のような生命維持の機能が働くので,遺伝子発現量の測定は,細胞の状態を同定するために必要不可欠な技術といえます。スタンフォード大学のBrown博士やAffymetrix社によって1990年代の後半に開発されたDNAマイクロアレイ技術によって,全遺伝子(ヒトの遺伝子数は約2万2000個)の発現量の同時測定が可能となっています。私の研究では,遺伝子発現量の計測データと,既知の遺伝子関連情報(代謝ネットワークや制御関係)を組み合わせた遺伝子クラスタリング(機能グループ分け法)を提案しました。この研究成果は,バイオインフォマティクス分野における私の初めての成果であり,さらに,採択率がわずか15.8%という難関をくぐり抜け国際会議ISMB/ECCBに採択されたこともあり思い出のある論文です。ただし,この論文の成果では問題があり,それは,パラメータ最適化の局所解問題でした。この問題を解決したのが,国際会議KDD2007(採択率18%)で発表したSpectral法の論文です。Spectral法はメジャーな方法でして,データのクラスタ情報を保持したまま,高次元空間から低次元空間にデータを射影するものです。KDD 2007に採択された研究のポイントは,数値属性データ(遺伝子発現量)とネットワーク構造情報を組み合わせることであって,ISMB/ECCB 2007の方法より局所解問題に苦しめられないことが経験的に示されています。そして,この成果の一般的な事もまとめて,2001年にPattern Recognition誌に発表しています。京都大学化学研究所でポスドクとして雇われてから開始したプロジェクトで,基本的な成果は,馬見塚拓教授(京都大学)と瀧川一学博士(現在,北海道大学)との共同で行いました。
A Spectral Approach to Clustering Numerical Vectors as Nodes in a Network
Motoki Shiga, Ichigaku Takigawa, Hiroshi Mamitsuka
Pattern Recognition, Vol.44, issue 2, pp.236-251, 2011.Annotating Gene Functions with Integrative Spectral Clustering on Microarray Expressions and Sequences
Limin Li, Motoki Shiga, Wai-ki Ching, Hiroshi Mamitsuka
Genome Informatics, Vol.22, pp.95-120, 2009.多様なゲノムデータの統合的クラスタリング解析
志賀元紀, 瀧川一学, 馬見塚拓,
生物物理, 理論/実験 技術, Vol.48, pp.190-194, 2008.A Spectral Clustering Approach to Optimally Combining Numerical Vectors with a Modular Network
Motoki Shiga, Ichigaku Takigawa, Hiroshi Mamitsuka
Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD2007), pp.647-656, San Jose, CA, USA, August 2007.Annotating Gene Function by Combining Expression Data with a Modular Gene Network
Motoki Shiga, Ichigaku Takigawa, Hiroshi Mamitsuka
Bioinformatics, Vol.23, i468-i478, 2007.
遺伝子発現の制御メカニズム(2008年~現在)
遺伝子発現量の制御メカニズムを知ることは,生命全体のシステムを知るために必要不可欠です。以下では,遺伝子発現の制御メカニズムに関する共同研究の成果です。
Genome-wide Integration on Transcription Factors, Histone Acetylation and Gene Expression Reveals Genes Co-regulated by Histone Modification Patterns
Yayoi Natsume-Kitatani, Motoki Shiga, Hiroshi Mamitsuka
PLoS One, 6(7), e22281, 2011.ROS-DET: Robust Detector of Switching Mechanisms in Gene Expression
Mitsunori Kayano, Ichigaku Takigawa, Motoki Shiga, Koji Tsuda, Hiroshi Mamitsuka
Nucleic Acids Research, 39(11), e74, 2011.On the Performance of Methods for Finding a Switching Mechanism in Gene Expression
Mitsunori Kayano, Ichigaku Takigawa, Motoki Shiga, Koji Tsuda, Hiroshi Mamitsuka
Genome Informatics, Vol.24, pp.69-83, 2010.Efficiently Finding Genome-wide Three-way Gene Interactions from Transcript- and Genotype-Data
Mitsunori Kayano, Ichigaku Takigawa, Motoki Shiga, Koji Tsuda, Hiroshi Mamitsuka
Bioinformatics, Vol.25, pp.2735-2743, 2009.
変分ベイズ学習法の統計的性質(2004年~2009年)
ベイズ学習法とは,観測データを用いて,興味のある事象が起こる確率(事後確率)を推論する手法です。興味事象に関係ある要素が全て観測される場合,期待値(積分や総和)の計算によって,事後確率を導出できます。しかしながら,実際には,観測できない事象が含まれる問題を取り扱うことが多く,その場合に事後確率を厳密に計算できません。事後確率の近似な計算手法には,サンプリング法や変分ベイズ学習法が提案されていますが,未解明な性質が多くありました。この研究では,ベイジアンネットワークという確率的なモデルの変分ベイズ学習法における統計的な性質を解明しました[Machine Learning 2009]。この研究は,博士後期課程の学生時に東京工業大学に滞在したことをきっかけとして,ファーストオーサーの渡辺一帆博士(現在,奈良先端大学)と渡辺澄夫教授(東京工業大学)と共に行ったものです。
Upper Bound for Variational Free Energy of Bayesian Networks
Kazuho Watanabe, Motoki Shiga, Sumio Watanabe
Machine Learning, Vol.75, issue 2, pp.199-215, 2009.
離散系列の情報量推定法(2002年~2005年,博士号取得まで)
離散系列(例えば,アルファベット列)が与えられたとき,その系列に含まれている情報はどれくらいか?を知りたいことがあります。例えば,様々なメディア(新聞や雑誌)から1つを選択する場合に,我々は,情報の多さ(情報量)に基づいて選択します。メディア選択の場合,文字列の意味や自分の目的と照らしあわせることで情報量を測ることができます。しかしながら,科学が対象としている観測系列,つまり,これから意味付けをしたい観測系列に対して,意味に基づく情報量の比較をすることができません。この研究では,ランダム性に基づく情報量の指標エントロピーに基づき,短時間の観測系列から正確に情報量を推定する方法を提案しました[電子情報通信学会論文誌 2003, 2005, 電気学会論文誌2005]。この一連の研究を指導教官であった岐阜大学・横田康成教授(当時,助教授)と行い,博士(工学)の学位を取得しました。
推定を独立な標本から繰り返す場合に最適なエントロピー推定量
志賀元紀, 横田康成,
電気学会論文誌部門誌C, 研究開発レター, Vol.125-C, No.12, pp.1912-1913, 2005.バイアス誤差の2乗平均を任意の値に制約する条件下で平均2乗誤差を最小化するエントロピー推定量
志賀元紀, 横田康成,
電子情報通信学会論文誌A, Vol.J88-A, No.4, pp.519-527, 2005平均2乗誤差を改善するエントロピー推定量
横田康成, 志賀元紀,
電子情報通信学会論文誌, Vol.J86-A, No.9, pp.936-944, 2003.