中村・南のサポートページ

著者のブログの岩波DS３のコラボ記事もぜひごらんください

傾向スコアの推定を行う際の，モデルに含める共変量の選択

本稿における，傾向スコアの推定を行う際の，モデルに含める共変量の選択について補足説明をします．まず，傾向スコアの推定に用いる共変量は，強く無視できる割り付けを成立させるように選ぶ必要があるということは本文で述べたとおりです．そのためにはバント作戦をとるかどうかが，どのような共変量に依存するかを考える必要があります．

基本的には監督の指示によって，バント作戦をとるか・とらないかが決まっているとすれば，監督が「何に基づいて」バント作戦をとるかどうかを決めているかが，この場合の共変量となります．

例えば，野手および相手投手，さらに次の打者の打率についてはよく確認して作戦を選択すると考えることができます．選択したすべての共変量について理由を述べるのは長くなりますので，ここでは幾つかの変数に絞って，共変量としてモデルに含めた理由を簡単に紹介します．

1）対戦投手のコントロールが良ければ，バントはしやすくなりますから，バントを選択する確率は上昇する

-> ピッチャーのデットボールや，フォアボールの率がコントロールの良さだと考えられるので，共変量に含む

2）対戦野手（バントする側）のそもそもの打率（出塁率）が高ければ，アウト1つを与えないで，ヒットを打つ方がチャンスが広がる可能性があるので，打率も考慮される．

-> 野手の打率を共変量に含める．

3）バントをする際には，後の打者が打つことを期待している．

-> 次の野手・次の次の野手の打率も共変量に含める

4）イニング後半で僅差の場合の方が，バントをして確実に得点を広げようとする可能性が高い

-> 野手チームから見た，投手チームとの得点差を共変量に含める．

本稿では，このようにして共変量を選択したのち，今回の解析では，本巻の文末にある共変量のうち，以下を説明変数として，ロジスティック回帰モデルをデータに当てはめて傾向スコアを推定しています．ただし，本文にもあるように一部の共変量にスプライン平滑化を行って，説明変数がバントする確率に与える影響が非線形になるようにしています．（＊このようなモデルを，一般化加法モデルと呼びます．詳しくは本文の参考文献である(Wood,2006)を参照してください．）

・イニング

・ボール・ストライクカウント

・投手・打者の利き手の交互作用

・打順

・点差

・打者の打率

・打者の打点（率）

・投手の防御率

・打者のHR率

・野手の四球（率）

・打者の犠打（率）

・次の打者の打率

・次の次の打者の打率

・投手の四球率

・投手の敬遠四球率

・投手の被擬飛数

・投手の与死球率

・被2塁打率

・投手の敗戦率

実際には，本に掲載した，これら以外の変数を入れて回帰モデルを実行し結果も確認しておりますが，それほど推定量に大きな変化はありませんでした．

また，重要な変数の抜けがないかについて，AICに基づく変数選択（変数減少法）を用いて確認を行っています．

野球経験者の視点からは，このモデルはおおよそ判断する際の変数を含んでいるということでした．

ただし実際には球場のコンディションなど，これら以外の変数にも実際には依存しているということでしたので，

このモデルが正しいとは言い切れませんが，本稿での解析においては，このモデルを使って解析しています．

【＊追記】

何人かの方に「シーズンの前半・後半（時期）」という変数を入れてみると結果は変わるんじゃないか？と意見をいただいたので確かめてみました．結果は，バントをする確率に対してのモデルでは有意な変数とはならず，IPW推定量等の推定値もほとんど変化しなかったことから，シーズンが，バント作戦をとる確率と得点確率の両方に影響与えているというわけではなさそうです．

スプライン平滑化

傾向スコアの推定に用いたスプライン平滑化とRのMGCVパッケージについての少し長めの解説（PDF)

データの前処理について

本稿で用いたデータについて補足をします．

本稿で解析を行ったデータは，2006年〜2014年のメジャーリーグのデータです．本稿では，特にノーアウト1塁における犠牲バントが得点確率を有意に上昇させるのかについて議論していますが，その際に用いたデータには，以下のような加工を行っています．以下で，加工の内容と，その理由について述べます．

1. 前年度の打席数が80打席よりも少ない場合（もちろん，新人を含む），その野手が入っている標本を解析の対象外とした．
2. （理由）前年度，試合に出場しているが打席数が少ない場合には，共変量（打率など）の値が信頼性が低くなります．極端な例をあげれば，20試合しかでていない場合でも，偶然調子がよくそのうち8打席でヒットを打ったとすると，打率は4割となってしまいます（実際は2割バッターかもしれない）．このようなデータを用いると，結果が不安定になりますので，今回の解析では80打席という基準を設けて，それ以下の打席数の打者のデータを含む標本を解析の対象外としました．また，新人に関しては，前年度のデータがありませんので，これも解析の対象外としました．
3. 同様の理由で，投球イニング数が30イニングに満たない投手の場合も解析の対象外としています．
4. 2ストライクのケースと，ノーストライク3ボールのケースを解析の対象外とした．
5. （理由）2ストライクのケースと，ノーストライク3ボールの場面において，バッターがバント作戦をとった場面は，8年間のデータでは観測されていません．そのため，データから推定されるバント作戦を取る確率は，このような場面では0ということになります．また，経験的にも，ピッチャーまたはバッターが追い込まれた場面でバントをすることはほとんどありません．つまり，このような状況下ではバントをする確率は0と考えることができます．一方で，傾向スコアはその定義から，「バントを選択する確率は0よりも大きく，1よりも小さい」という仮定を満たすことを要求します．この条件が成り立たないと，傾向スコアを用いた解析はできません．そこで，このようなデータも解析の対象外としました．

＊注意：一般的に，理由なくデータから標本を取り除くことも，推定結果にバイアスを生むことが知られています．そのため，上記のようなデータの処理は，適切であるということはできません．ただ，今回の解析では上記のような理由から，データを取り除くという処理をおこなったことをご理解ください．

参考文献（追加）

[因果推論]

1) 星野崇宏. (2009). 調査観察データの統計科学, 岩波書店

[欠測データ解析]

2) Rubin, D. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.

[傾向スコア]

3) Rosenbaum P.R., Rubin D.B. (1983) The central role of the propensity score in observational studies for causal effects. Biometrika. 70:41-55.

4) Rubin D.B. (2001). Using propensity scores to help design observational studies: Application to the tobacco litigation. Health Services & Outcomes Research Methodology. ;2:169-188.

5) Zhao Z .(2008) Sensitivity of propensity score methods to the specifications. Economics Letters ;98:309-319.

[逆確率重み付き推定量]

6) Hirano, K., Imbens, G. W. and Ridder, G. (2003), Efficient Estimation of Average Treatment Effects Using the Estimated Propensity Score. Econometrica, 71: 1161-1189.

[2重に頑健な推定量]

7) Bang, H. and Robins, J. M. (2005). Doubly robust estimation in missing data and causal inference models. Biometrics 61, 962-972

[ブートストラップ法]

8) Efron, B., and Tibshirani, R. (1994). An introduction to the bootstrap. New York: Chapman and Hall.

[一般化加法モデルとスプライン平滑化法]