第49回福井大会 当日Q&A
大東氏の話題後
Q.分布は自分で決めなきゃいけないの?
A.自分がとったデータが、離散なのか連続なのか、割合なのか、負の値をとるのか、平均と分散の関係がどうなっているかによって取りうる分布をしぼりこめます。が、最終的にその分布がデータにあてはまっているかは自分でチェックして判断しなければいけません。
Q.ガンマ分布は0を含まないので、0を含む乾物重データをうまく表現できなくて苦労したことがある。解決策は?
A.全ての値に微少量を足し、分布を平行移動して、ガンマ分布をあてはめてみる方法がありますが、あまりお勧めしません。0を含んだデータは負の二項分布でも近似できるので、負の二項分布のあてはめを検討してみては。ベイズで、0か0より大きな値を持つかという事前確率を導入したうえで、0より大きな値を持ったときの分布をガンマ分布で記述することもできます。
今泉の話題後
Q.割合データで母数が変化するような場合(さまざまな面積あたり何個体というように)、どう対応すれば良いのか。
A.面積あたりの個体数といった密度を表すような割合データは、二項分布で扱う割合データとは質が異なります。例えば、発芽率のような割合データであれば、分母も分子も同じ種子の数であり、分子の取りうる値の最大値が分母にくるようなデータですので、二項分布で扱います。それに対し、密度のような割合データでは、分母は面積、分子は個体数といったように、分子と分母の間に制約はありません。このようなデータはオフセットで対処するとよいでしょう。
Q.GLMにおける線形化は、AICを計算するために行っているのではないのか?
A.線形化は要因の効果を加法的にし、解釈しやすいものにするためです。AICは線形モデルでも非線形モデルでも計算することができるので、AICの計算のために線形化しているわけではありません。ただ、線形化することによってAICが計算しやすくなっているのは確かです。
下野の話題後
Q.多水準のカテゴリカル変数がモデルに含まれている場合、Rは1つの水準に対して他の水準の効果がどうだったか出力するが、多重比較をすべきなのでは?
A.Rの出力結果は、1つの水準に対して他の水準の効果が0だったかを検定するものとなっており、帰無仮説に対する検定とは異なります。多重比較する場合は、帰無仮説に対する検定(analysi of deviance)で各要因の効果を見た後、多重比較をします。Rの場合、GLHTという関数を使えば、多重比較をすることができます。具体的な方法についてはこちらをご覧下さい。
総合討論
Q.AIC = -2×対数尤度+2×パラメーター数。パラメーターが増えることによるペナルティーが大きいと感じているが、2×パラメーター数にしなければならない理由はあるのか?
A.AICは相対値な大小関係を比較するもので、絶対値に意味はありません。2×パラメーター数である必然性はないと考えられます。例えばニューラルネットでよく使われるminimal discription lenghth最小記述長、MDL(BICの親戚)と呼ばれる情報量基準ではパラメータの増加に対してより厳しいペナルティを課す傾向にある、など、AICのパラメタへのペナルティがいつも最善なわけではありません。
Q.水田雑草のバイオマスをおさえながら、稲のバイオマスを最大にするような環境条件を模索しているが、どのようにモデリングすればよいか。
A.GLMで対処するのは難しいかもしれません。要検討。