本研究室では,統計学や機械学習をもとにデータ解析のための理論・方法論について研究しています,また,提案したデータ解析手法をさまざまな分野のデータに応用する研究も行っています.研究の概要については,このページとあわせて こちら もご覧下さい.
本研究室では,さまざまなデータ解析技術を開発研究していますが,ここでは,スパース学習に基づく統計モデルについて紹介します.スパース学習とは,ある現象が観測されたとき,その現象を説明する要因を同定する統計的手法です.このように要因を同定する方法としては,従来より AIC(赤池情報量規準)などの変数選択法が有名です.しかし,要因が膨大であるときには,従来からの変数選択法はうまく機能しないことが知られており,スパース学習が必要になります.ビッグデータ時代の現代において,スパース学習はデータ解析技術の要になると考えています.スパース学習について興味のある方は,拙著「スパース推定法による統計モデリング」をご覧下さい.この他にも,統計的モデル評価,ベイズモデリング,統計的因果推論などの研究も行っています.
まず,生命科学分野に対する応用研究を紹介します.下左図はエストロゲン受容体ポジティブ由来の乳がんとネガティブ由来の乳がんの差異を表す遺伝子ネットワークです.このネットワークは,スパース学習による統計モデルを用い,遺伝子発現データと生体内パスウェイから有用な情報を抽出することによって作られています.本研究は,東京大学医科学研究所と共同で行い,研究論文として Kawano et al. (2012; IEEE/ACM TCBB) にまとめられています.近年では,次世代シーケンサにより膨大なゲノム情報(ヒトの全ゲノムだと数百GBもあります)を得ることが可能となり,現在そのようなデータに対する解析にもチャレンジしています.
国立遺伝学研究所,統計数理研究所とともに,染色体操作したマウスの特徴量とその染色体操作との関連性の研究を行いました(下右図).本研究では主成分回帰モデルを拡張し,そのモデルを本データに適用しています.詳しくは Kawano et al. (2018; CSDA) をご覧ください.
万葉歌をデータ化し,短歌を客観的に評価する研究についても取り組んでいます(下中央図).本研究は,関西大学文学部との共同研究であり,これまでに多くの研究成果が得られ,研究論文としてまとめられています.
その他にも,日本製鉄 (株),東京医科大学,水産大学校などと共同で研究を進め,データ解析の応用の幅を広げています.
遺伝子ネットワーク (Kawano et al., 2012; IEEE/ACM TCBB より転載)
マウスの個体の分布 (Kawano et al., 2018; CSDA より転載).数字はマウスの種類を表している.
万葉短歌データ解析 (川野・村田, 2019; 応用統計学より転載)