lassoとAICについて

「モデル選択超速習」のコラムとその注ではかなり大雑把に説明しましたが,もう少し詳しい情報を提供します.専門の方の意見を聞きながら書いていますが,随時修正が入るかもしれません.このページの内容は上級者/研究者向きです.

1.線形ガウスモデル(通常の重回帰)について,有限サンプルでの結果

L1罰則だと多重性の効果が消えてAICになるという結果です.スタイン等式というものを使った議論です.伊庭はちゃんと読んでいないのですが,文献を教えて頂いた方によると,2番目の論文の議論のほうがわかりやすいそうです.最初の論文はLARSの原論文として有名ですが,その一部として,この話題が論じられています.

Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004).

Least angle regression. The Annals of statistics, 32(2), 407-499.

Zou, H., Hastie, T., and Tibshirani, R. (2007).

On the “degrees of freedom” of the lasso. The Annals of Statistics, 35(5), 2173-2192.

2.レプリカ法を使った結果

(サンプルサイズ)と(説明変数の数)の比を一定にして,どちらも無限大にした極限を線形ガウスモデルについて計算しています.L1罰則だけでなく,もう少し広い場合も扱っていますが,(普通の意味の)真のモデルだけでなく,説明変数の分布についても仮定が必要です.L1罰則については1.と一致する結果になります.

Sakata, A. (2016).

Evaluation of generalized degrees of freedom for sparse estimation by replica method.

J. Stat. Mech. 123302

電子版 (open acess)

著者によるポスター(PDF)

3.漸近論にもとづく結果

モデルが真のモデルを含むとして,サンプルサイズを無限に大きくした場合の結果です.

3A.罰金項の強さが一定

この場合は,基本的には「すべての変数が採用される」という自明な結果になります.

3B.罰金項の強さがサンプルサイズに比例

一般化線形モデルについて,L1罰則については「ほぼAIC」の結果になります.ただし,この条件では,推定した係数がサンプルサイズ無限大で「真の値」に収束することが保証できない(係数の推定値の一致性が保証されない)ので,厳密にはバイアス補正項はAIC型でなくTIC型になります.

Ninomiya, Y., Kawano, S.(2016).

AIC for the LASSO in generalized linear models, Electronic Journal of Statistics, 10, 2537-2560.

3C.罰金項の強さがサンプルサイズの平方根に比例

この場合は他の場合とちがって,L1罰則についてはAICに付加項がつく反面,0<p<1のLpについてはAICに一致する結果になります.DS5の記事で説明したのとは違う振る舞いを示すわけです.この条件では推定した係数の一致性が成立しますが,3Bとどちらが自然な極限なのかは,簡単にはいえないようです.

Yuta Umezu, Yusuke Shimizu, Hiroki Masuda, and Yoshiyuki Ninomiya.

AIC for non-concave penalized likelihood method

arXiv:1509.01688

著者によるスライド(PDF)