木構造を持つモデルをメインとするノンパラメトリック手法を利用した因果効果の推定を研究しています。ランダムフォレスト(Random Forest)や勾配ブースティング加法回帰木(Gradient Boosting Regression Trees)、ベイズ加法回帰木(Bayesian additive regression trees)の有限標本下および漸近的な振る舞いの理論的な解析や、一般化ランダムフォレスト(Generalized random forest)と Double Machine Learning を Instrumental Variable の文脈で融合し Conditional LATEを推定する手法の開発、高次元下でのBayesian Causal Forest の contraction rate の導出などの研究を行っています。また、ランダムフォレストなどの木構造を持つモデルにおける変数重要度や事後解析による解釈可能性の向上、変数選択理論の研究も行なっています。
私は、木構造をもつノンパラメトリック手法の理論解析に興味があり、2017年から南美穂子先生(当時、慶應大)、白石博先生(慶應大)とランダムフォレストなどの解析をしてきました。木構造を持つモデルは、比較的高い予測精度を達成することができる汎用的な回帰モデル・判別モデルとして実務などでもよく採用されています。木構造を活かしたモデルには、実際の活用上のメリットが多く存在します。
特徴量を順序ベースで分割してモデルを構築できるために前処理の負担が少ない
ルールベースの分割なので直感的な解釈がしやすい。例えば、Athey and Imbens における Causal Tree では randomized trial の際の因果効果の推定を木構造ベースで行うことで、介入効果が高い集団を発見するといった手法を提案しています。
木構造のアンサンブルであるランダムフォレストや、ブースティングの予測精度が高い。
どのようなデータであっても、比較的うまく機能するということが経験的に知られているため、とりあえずベンチマーク的に利用しやすい。
ランダムフォレストの予測はパラメータのチューニングに対して「比較的」頑健です。これは、Tree における split は implicit な変数選択を含むために、有効な少数の変数が選択されやすく、比較的 sparseな構造を持つためと考えられます。
ランダムフォレストやブースティングと言った手法は、基本的には blackbox です。ただし、データへの当てはめ後に、予測精度を解釈するという手法があるため、予測がどのような変数に依存しているのかが分かり易いということがあります。
ランダムフォレストやブースティングは、計算効率化が非常に進んでいる領域の1つです。そのため、1億程度のレコードに対しても十数分程度で高速計算ができます。これも、木構造モデルを用いる大きな理由の1つとなっています。
線形モデルや、一般化線形モデルなどの方が解釈可能性が高いような場合もありますが、比較的データ分析が決定木で事足りる場合も多いです。しかし、うまくいく手法が理論的保証があるかは別の問題です。
その一方で、木構造モデルについての理論的な性質の解明は、2000年代以前から取り組まれてきていましたが、大きな進展があったのは2015年以降のことです。理論研究として代表的なものを挙げると、Jeon and Lin (2006), Biau (2012), Scornet (2015), Athey and Wager (2016), Mentch and Hooker (2016), Wager and Athey (2018), Athey Tibshirani and Wager (2020), Peng, Coleman and Mentch (2022) があります。そのほかにも、Bayesian additive regression trees (Chipman et al. (2010)) についても、Rockova and van der Pas (2019) や Linero and Yang (2018) において、posterior contraction rate が与えられたことにより、大きく理論的な研究が進展しつつあります。
また、周辺領域の進展も著しく、上記にも挙げた Athey, Tibshirani and Wager (2020) において提案された Generalized random forest は推定方程式を満たすような汎函数パラメータをデータからランダムフォレストを用いて推定する一般的な枠組みを提供し、推定された汎函数パラメータに対する漸近理論を与えました。この枠組みから派生した手法として、Orthogonal random forest (Oprescu et al. 2017) や、Extremal Random forest (Gnecco et al., 2024), さらに Riesz-Representation を組み合わせた推定法である Automatic Doubly Robust Forests (Chen et al., 2024) 、右側打ち切りのある生存データに対するCATE推定手法である causal survival forest (Cui et al., 2023) があります。生存時間に対する Treeモデルの応用は、Random survival forest (Ishwaran et al., 2008) 以降に長い研究の歴史がありますが、近年の研究では生存時間に対する木構造モデルを用いた処置効果推定が活発化しつつあり、Tree based weighted learning (Cui and Zhu, 2017) や、Consistency of survival tree and forest models (Cui et al., 2022) などがあります。また、Optimal survival tree (Bertsimas et al. 2022; Huisman et al. 2024) などでは、再帰的分割における分割のバイアスを取り除く方法が議論されており、単一の木構造で解釈性を高く保たせる際の推定のバイアスについて評価を行う研究も活発です。