I have received an education in "Mathematical Engineering". I understand that mathematical engineering is not a discipline, but an idea that defines the attitude, approach, and problem awareness of research.
I aim to "find mathematical structure in engineering problems and create mathematical tools required for engineering". As a target, I am currently focusing on machine learning.
In a nutshell, the main subject of my current research, machine learning, is "a field of research that gives computers the ability to learn without explicit programming". For example, it aims at giving the ability for a computer to judge whether an email is spam or not by giving data to the program rather than explicitly writing rules. In order for a computer to have the ability to make decisions without writing down specific rules, it is necessary to have a mechanism that makes the data (experience) smarter. In machine learning, the algorithm that realizes such a mechanism will be considered. I'm interested in understanding (if possible, from a geometric point of view) why some algorithms work better for machine learning algorithms.
I approach problems in two main ways:
1) Emphasizing mathematical exploration: Since there is no single method that works well for all problems, it is not meaningful to solely compete based on performance. I believe that the formulation and definition of problems, as well as the identification of their mathematical structures, hold great value. Instead of solely focusing on performance, I prioritize the originality of the methods and their formulation. My goal is to have a few researchers who share my values say that our work is interesting.
2) Prioritizing practicality: When addressing real data analysis problems, practicality becomes crucial. I believe it is important to select methods that possess properties required in the field, such as computational efficiency, memory efficiency, interpretability, and robustness. If existing methods are inadequate for the problem at hand, I am committed to developing new ones. While I place significant importance on the mathematical foundation, I am careful not to become overly attached to methods I have developed myself. In other words, I prioritize the originality of the problem-solving approach and do not let the originality of the method cloud my judgment. It is not the right attitude to stick to a single method and bend the problem to fit it when aiming to solve engineering problems.
These two approaches are not necessarily contradictory, but rather require switching mindsets in many cases. If you believe that either (or both) of these approaches align with your interests, I believe it is worth considering collaborating with me or considering me as a thesis advisor.
Non-parametric estimator of entropy and information:
For observed data, there is a quantity called "information content" as a measure of "importance" that the data has. Also, there is a quantity called entropy for measuring the "uncertainty" and "complexity" of the data set as a whole. The amount of information and entropy may have been learned in the course of information theory, but what has probably been learned there is the amount for discrete distributions, or the amount that can be calculated when the probability distribution for generating data is known. It is unknown in practice what kind of probability distribution the data originates from, and it is important to estimate the information amount and entropy of the data from the observed data itself without making extra assumptions as much as possible. So far, I have developed several methods for estimating the amount of information and entropy. Also, I have proposed algorithms for ensemble learning in machine learning, regression problems, dimension reduction, clustering, mixing data generated from different sources, or time-series change point detection algorithm.
Application of sparse modeling:
Sparse modeling is a general term for mathematical modeling approaches for extracting a small number of essential data or features from high-dimensional, large-volume data. Some of the research I'm involved in are:
Development of efficient methods for extracting essential features from high-dimensional data by using sparsity in discrimination problems.
Development of a method for estimating the graph structure that represents the "relationship" between variables from data only. By using sparsity, it is possible to understand the relationship between a small number of variables. Applications include understanding of the learning process by analyzing the connection patterns of rat nerve cells, analysis of relationships between companies by analysis of stock price relationships, and analysis of multivariate time series through analysis of relationships between sensors such as automobiles.
I propose techniques to improve the resolution of degraded images by applying a technique called sparse coding.
In cooperation with the Japan Agency for Marine-Earth Science and Technology, we are performing position estimation of slow slip earthquakes by applying sparse modeling technology.
Information geometry: Information geometry is a methodology for analyzing statistical inference procedures using the method of differential geometry by regarding the space formed by the parameters of the statistical model as a manifold. I'm analyzing machine learning algorithms by information geometry, specifically the geometric analysis of modal linear regression, methods of mixing nonparametric distributions, and transfer learning. I am also interested in the geometric description of thermodynamic relaxation processes and the analysis and derivation of continuous optimization algorithms from a geometrical point of view.
Active Learning and Bayesian Optimization: I am developing a machine learning methodology called active learning (AL) and Bayesian optimization (BO). Active learning is a mechanism to learn a highly accurate predictor with a small number of data by selecting which datum should be included in the training data. I'm studying how to speed up experiments that measure the properties of materials by active learning and optimize the function called the acquisition function that determines which data is selected next by active learning. We are also studying the optimal stopping problem of active learning, which theoretically evaluates where to stop acquiring data by active learning. Bayesian optimization is used for finding minima/maxima of a costly to evaluate black-box function. We developed a method to terminate the BO procedure at an appropriate timing to avoid wasting resources.
私は「 数理工学 」の教育を受けてきました.私は数理工学というのは学問分野というよりも,研究の「姿勢・態度・アプローチ・問題意識」を規定する考えと理解しています.
基本的には,「工学の中に数理を見出し,工学に必要とされる数理を創る」ことを目指しています.対象として,現在は機械学習を中心として研究をしています.私が現在主な研究の対象としている機械学習をひとことで言うと,「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」です.例えばeメールがスパムかそうでないかを判断する,といった操作を,ルールを書き下すのではなく,プログラムにデータを与えることで判断する能力を身につけてもらうためにはどうしたらよいか,ということを考えたりします.具体的なルールを書き下さないでコンピュータに判断能力を持ってもらうためには,データ(経験)から賢くなるような仕組みが必要で,機械学習ではそうした仕組みを実現するアルゴリズムを考察の対象とします. 機械学習のアルゴリズムに対して,何故あるアルゴリズムがうまくいくのか,(可能ならば幾何学的な観点から)理解することに興味があります.
私の問題に対するアプローチは主に2つです.
1)数理的な面白さに拘る:全ての問題に対してうまくいく方法はないので,自分の方法がうまくいかないこともあります.着眼点や問題設定,問題の数理的構造に価値があると考えているので,性能勝負はしないで,手法のオリジナリティを重視します.自分が価値観を共有する数名の研究者に,「面白いね」と言ってもらえることが目指すべき所です.
2)実用性に拘る:実データ解析問題に臨む時はこちらの姿勢を採ります.計算効率,メモリ効率,解釈可能性,ロバスト性など,現場で必要とされる性質を持つ手法を選択します.既存の方法で手に負えない場合には,新規開発を行います.数理的背景は重視しますが,自分が作った方法に固執しないように気をつけます.言い換えると,問題解決の着眼点としてのオリジナリティを重視し,手法のオリジナリティは目を曇らせる原因なので重視しません.一つの方法に拘泥したり,「俺様」手法にこだわって問題を捻じ曲げるのは工学的問題解決を目指す時の正しい態度ではないと考えています.
これら2つのアプローチは必ずしも相反するものではありませんが,多くの場合頭を切り替える必要があります. 上記のいずれか(或いは両方)のやり方が自分に向いていると思うならば,私との協業や,学位取得を目指す方は私を指導教員として検討してみる価値があると思います.
能動学習と呼ばれる機械学習の方法論の開発と応用を研究しています.能動学習とは次にどの様なデータを用いて予測器を学習するかを選択することで,少ないデータ数で高精度な予測器を学習する仕組みです.能動学習によって材料の性質を測定する実験を高速化したり,能動学習で次にどのデータを選択するかを決める獲得関数と呼ばれる関数を最適化する方法を研究しています.また,能動学習によるデータの取得をどこでやめて良いかを理論的に評価する,能動学習の最適停止問題を検討しています.
情報幾何学:情報幾何学とは,統計モデルのパラメタがなす空間を多様体とみなして,微分幾何学の手法を用いて統計推論を解析する方法論です.情報幾何学的によるアルゴリズムの解析,具体的には最頻値線形回帰の幾何学的解析や,ノンパラメトリックな分布の混合手法を研究しています.また,熱力学的緩和過程の幾何学的記述や,連続最適化アルゴリズムの幾何学的観点からの解析・導出にも関心があります.
ノンパラメトリックな情報量・エントロピー推定とその応用:データを観測した時,そのデータが持っている「情報量」,あるいは「大事さ」を測る尺度として,情報量と呼ばれる量があります. また,データ集合が全体として持っている「バラツキ」や「複雑さ」を測る尺度として,エントロピーと呼ばれる量があります. 情報量やエントロピーは,情報理論の講義で習ったかもしれませんが,おそらくそこで習ったものは,離散分布に対する量であったり, あるいはデータを生成する確率分布がわかっている状況で計算できる量であったかと思います. しかし,実際にはデータがどの様な確率分布から生じているかは未知であり,観測したデータそのもののみからデータの情報量や エントロピーを,出来るだけ余計な仮定を置かないで推定することは理論的にも実用的にも重要です. これまで,情報量やエントロピーを推定する方法を幾つか考えてきました.また,その応用として,機械学習における アンサンブル学習や,回帰問題,次元削減,クラスタリング,異なる情報源から生じたデータの混合,あるいは時系列の変化点検出のアルゴリズムを提案してきています.
スパースモデリング応用:スパースモデリングとは,高次元・大量データの中から本質的に必要な少数のデータを抽出するための数理モデリングアプローチの総称です.私が関連している研究としては,以下のものがあります
機械学習における判別問題においてスパース性を利用することで高次元データを効率よく,かつ本質的に必要な 特徴量を取り出す方法の開発
変数同士の「関係」を表すグラフ構造を,データのみから推定する手法の開発.スパース性を利用することで少数の変数同士の関係を把握できる. 応用として,ラットの神経細胞の結合パターンの解析による学習過程の理解,株価の関係性の解析による企業間の関係解析,自動車等のセンサー同士の関係性の解析を通した 多変量時系列からの異常検知などを行なっています.
スパースコーディングという技術を応用して,劣化した画像の解像度を向上する手法を提案しています.
海洋開発研究機構等と協力して,スロースリップ地震の位置推定を,スパースモデリングの技術を応用して行なっています.また,マグマ組成によるテクトニクス場の分類に関する研究も行っています.
データ解析応用:複数の企業と,大規模データの解析技術に関する共同研究を行なっています. 統計学の基礎的な手法やデータマイニング技術に始まり,機械学習の先端技術までを「企業の中で実際に解析を必要としているデータ」に適用し, 解析を通した知識発見をすることで企業の競争力向上に協力しています.
その他:他にも,多くの共同研究を行なっており,進行中の研究テーマは多数あります.上記の内容と重複しますが,幾つか私のところに共同研究の形で話が来ている話題を挙げます:
地震に伴う海底プレートの余効滑りの推定(海洋開発研究機構)
蛍光分子顕微鏡の分子位置推定に関する研究(東京大学)
物質構造解析のための中性子散乱データ解析(大阪大学,高エネルギー加速器研究機構,量子科学技術研究開発機構)
EEGによる脳内活動部位推定に関する研究(レスブリッジ大学:カナダ,早稲田大学,筑波大学)
睡眠ステージと脳神経細胞の機能的結合の解析(筑波大学,早稲田大学)
能動学習とその応用(九州工業大学,高エネルギー加速器研究機構,量子科学技術研究開発機構)