決定木
決定木
分類木と回帰木がある。
情報利得が一番大きい分岐条件でデータを分割し、更に分割先でも同様に情報利得を最大とする分岐条件を検索してくれるのが決定木の動作イメージ。(「東京大学のデータサイエンティスト育成講座」から引用。)
決定木による分析には、1984年にBreimanらによって開発された、CART(カート、Classification and Regression Tree)法というアルゴリズムが多く使われている。このため、決定木のことをCARTと呼んだりもする。
「東京大学工学教程 システム工学 知識システムI 」に理論の解説がある。Gini指標と経済学で使われるGini係数の混同に注意。
「Pythonではじめる機械学習」や「あたらしい深層学習の教科書」にはscikit-learnを使った実装に関する説明がある。前者には回帰(DecisionTreeRegressor)と分類(DecisionTreeClassifier)両方の説明があるが、後者は分類のみである。
決定木やランダムフォレストは、回帰問題に適用する際に、各葉ノードにおける平均値を予測値として使用することが一般的である。つまり、葉ノードごとにデータポイントの平均値を計算し、新しいデータポイントがどの葉ノードに分類されるかを基に、該当葉ノードの平均値を予測値として出力する。