【ベイズモデリングの世界] サポートページ

[本書は岩波データサイエンス刊行委員会の編集ではありません]

階層モデルで「個性」をとらえる(久保拓弥)

動画(伊庭幸人)

岩波DSのVol.1のイントロのために作った動画ですが「ベイズモデリングの世界」の特に前半のイントロにもなっていると思います.

平均値から個性へ―統計的モデリングのひらく世界像

p.12 下から5行 τ(タウ)はδ(デルタ)の誤りです.

〈コラム〉「平均値から個性へ」の例を試してみる(伊庭幸人)

このコラムは「平均値から個性へ」の事前分布(5)を用いたモデルを実際に試すためのものです.

以下の2点を補足しておきます.

高次多項式との比較,KFASとsregの比較

高次多項式でのあてはめと比較してどうか,またsregとKFASの比較ではどうか,ということが気になります.コラムの冒頭の人工データで少し試したところでは,多項式でstep関数を使ってAIC最小を求めた場合とKFASでは明確な優劣はなさそうですが,人工データを作る乱数によって,多項式の場合は(主に端のほうに)余計な山や谷ができる現象が見られます(AICの最小化の手法にもよるかもしれません).一方,sregは,平滑化の程度を決めるパラメータの推定に GCVを使用しているためだと思いますが,人工データを作る乱数によってときたま極端にオーバーフィットする(データにくっつく)現象を生じます.

これらは系列の長さにも依存するはずで,長い場合にはKFASなどが有利になり,逆に短いときは多項式などのパラメトリックなモデルのほうがむしろ安定な場合も出てくると予想しますが,詳しくは読者の検討に委ねます.同じ設定でも,結果は人工データを作る乱数に大きく依存するので,乱数を変えて多数の事例を観察したり,二乗誤差の平均などを計算する必要があります.

sreg関数でもベイズ信頼区間は計算できるらしい

fieldsパッケージのsreg関数について「罰則付き推定の立場に立っている」と解説しましたが,ベイズ信頼区間も計算できるようです.マニュアル(PDF)のsreg関数の項の最後に関連する記述があります.

〈コラム〉「個性」とパラメータの推定(伊庭幸人)

図1の例ですが「グループによって(データの背後にある直線の)切片が異なるための効果」と「グループによって横軸xが観測されている範囲が違う効果」が双方とも含まれています.実際の解析では双方とも問題になりますが,いわゆるランダム効果の影響は前者で,後者はむしろ因果推論でいう交絡の効果(切片と観測点のx座標が独立でない)あるいはランダムでない欠測の効果と考えられるので,区別して説明するほうが妥当だったと思います.前者のみでも,グループを混ぜて解析すると相関係数の値は小さくなりますが,符号が逆転したりはしません※.

※「いや逆転することもある」というご指摘がありました.期待値としては逆転しないですが,データ(訓練データ)をいろいろ取ったとき,相関係数の期待値がゼロに近いほど,偶然変動で符号が逆転する確率が増えます.その意味ではその通りです.訂正してお詫びします.

上記に関連して初刷りのp.36 下から6行目-5行目のカッコ内

(切片のグループ差がもっと大きくなれば,全体にあてはめた直線が負の傾きを持つこともありえます)

という説明はそれだけでは誤解を招きそうなので,2刷りでは削除します.

階層ベイズ講義(伊庭幸人)

野球選手の例の補足

p.121の野球選手の例で「2乗誤差」とあるのは,注9で言及したデータ変換(逆正弦変換)を行ったあとの量で計算した2乗誤差の意味です.確率そのものの2乗誤差ではありません.

ガウス型確率場,正規確率場→ガウス型マルコフ確率場(GMRF)

初刷りのp.141の下から10 行目の「ガウス型確率場」「正規確率場」は連続空間の上の場合を指すのが一般的なようです.CARモデルの事前分布のような格子上のマルコフ場の場合は「ガウス型マルコフ確率場」(GMRF)が適切な用語なので訂正します.

ローカルトレンドモデル→平滑化トレンドモデル

この講義のp.138で取り上げたような2階差分に対応する項のみを含むモデルは「平滑化トレンドモデル」「2次のトレンドモデル」とよび,傾きとレベルの両方にシステム雑音を含むモデル(「ローカル線形トレンドモデル」)と区別するのが普通のようです.「ローカルトレンドモデル」は紛らわしい表現だったので訂正します.

クリギング (Kriging)についての補足

図1には入っていませんが,地球科学で発達した空間統計の手法として,空間を格子に切らなくても適用できるクリギング法が知られています.これは潜在変数として連続空間でのガウス型の確率場をデータの背後に考えるもので,本文のコラムで触れたガウス過程回帰と近縁の手法と考えられます.状態空間モデルでいえば,潜在変数としてのガウス型確率場が「状態」に相当しますが,これは通常最初に積分消去されるので表に出てきません.「ベイジアン・クリギング」というのもありますが,これは状態空間モデルでいうパラメータもベイズ的に扱うもので,階層ベイズの用語でいえばフルベイズ推定に相当するものだと考えられます.

マルコフ状態モデル→マルコフモデル,隠れマルコフモデルの医学分野への応用

初刷りのp.154 下から5行目で「マルコフ状態モデル(Markov State Model, MSM)」という用語を示しましたが「マルコフモデル(Markov Model)」のほうが広く使われているので,こちらに訂正します.次のp.155の上から10行目も同時に訂正します.

また,医学分野での隠れマルコフモデルの応用ですが,さらに調査した印象では,まだそれほど一般的でなく,通常のマルコフモデルが多く使われているようです.本文の記述は今後の展望を示したものとご理解頂けると幸いです.

MARの場合への一般化

実際の応用で完全尤度が重要なのはMCARでないMARの場合ですが,式(5)でqをq(y_i)に置き換えるだけです.式(8)まで行くと,分母分子で本文と同様にキャンセルが起きて,以下は同様となります.

修正抜け

初刷りのp.160の最初の1行後半「ここで,積分・・は多重積分を示す」は削除したつもりが残っていました.式(10)の積分は各x_iについての積分で,それらについての多重積分ではありません.お詫びして訂正します.

3変数以上のときのMARの定義

p.160の下から9-8行目でMARを定義しました.本文で扱っている2変数のときはこれでよいのですが,3変数以上あるときはいろいろな欠測のパターンがあるので,単に「条件つき独立」といってしまうと問題があります.「変数y_iの値を与えたときに」という表現のほうがより一般性があります.3変数以上で起きる問題については,高井ほか「欠測データの統計科学」(岩波書店)の2章p.42-43を参照してください.

「完全尤度」という用語

厳密には「完全尤度」(full likelihood)は欠測パターンを決める変数の尤度も含んだものを指すようです.MARの場合には欠測パターンの部分を分離することができます(詳細は高井ほか「欠測データの統計科学」(岩波書店)の2章p.45-48を参照).p.160の上から2行目ではその部分を取り去ったものを考えているので,「直接尤度」「観察データの尤度(observed data likelihood)」という用語がより適切でしょう.

回帰分析の場合の欠測について

本書では2変数の分布関数p(y,x|γ)で変数の一方の場合に欠測があるという設定で解説しました.実際には説明変数と目的変数のある回帰で欠測を考えることも多いと思います.その場合,たとえば欠測が生じるのが説明変数xの側だとすると,回帰の尤度関数をp(y|γ,x)として,p(y,x|γ)=p(y|γ,x)p(x)という式が本文で考えた尤度関数に相当します.この場合のp(x)は通常の回帰分析では結果に関係しないですが,たとえば「観測されるyの値によってxの欠測が決まる」というMARの状況では完全尤度・直接尤度にもとづく欠測の扱いに必要になります.本文では「欠測の場合は事前分布に相当するものを改めて導入する必要はない」と説明しましたが,この場合には通常使われないp(x)が必要になり,ある意味ではこれは「事前分布」に近いものだといえるかもしれません.詳細は,高井ほか「欠測データの統計科学」(岩波書店)5章p.148-149を参照してください.

欠測をStanで扱うことを積極的に勧めているわけではありません

欠測で使われるdata augmentationをMCMCの一種として捉えることの利点として「たとえばStanなどで使われているハミルトニアンMCMCを欠測の問題に使える可能性もある」という意味のことを初刷りに書きましたが,これはあくまで「頭を柔軟にしよう」というつもりで,通常の欠測の問題にStanなどを使うことを積極的に勧めるという意味ではありません.一般的にdata augmentationを使う場合,少ないステップ数でもかなり良い結果が得られることもあるようで,アルゴリズムからみた問題の構造も一般的なベイズより単純なことを考えると,専用の手法のほうがよいと思います.

付録A

スタイン推定について「講義1で説明した設定では各グループのメンバー数が1なので極限Aが自然」というふうに書きましたが,σを小さくしたり,あるいは大リーグの打者の場合,データの打席数を増やせば,メンバー数が増えたのと同じですから,あまり適当ではなかったかもしれません.

「現実の問題としては,極限Aに近い場合も極限Bに近い場合も,どちらでもない場合もありうるが,スタイン推定としての面白みは極限Aの場合にある」というのが,グループ構造を持つモデルではより正しい説明になると思います.

いっぽう,状態空間モデルなどでは,本文にある通り,極限Bに相当する「ひとつの時刻の観測数が多い場合」よりは,極限Aに相当する「時系列が長い場合」のほうが自然なことが多いと思います.

欠測の参考書の追加

本書の入稿後に共立出版から

高橋将宜・渡辺美智子

欠測データ処理 Rによる単一代入法と多重代入法

が出版されました.各種のRのパッケージの解説を含めた内容で実務に役立ちそうな本です.

隠れマルコフモデル・有限混合分布モデルに詳しいテキストの追加

石井健一郎・上田修功

続わかりやすいパターン認識 - 教師なし学習入門

Ohmsha

正誤表

伊庭執筆の部分の正誤表