統計関係で気になったことなどを書きとめておく。間違いなどあるかもしれないので信用しないこと。
エラーの基本的な考え方
第一種の過誤(α過誤、偽陽性)と第二種の過誤(β過誤、偽陰性)。どっちがどっちなのかいつもわからなくなるのは私だけなのだろうか。検定を行う際は第一種の過誤を厳しく扱うことになっている。第二種の過誤に関しては起きやすくても許容されるが、実際に使う立場からすると違いがある時に有意差が出ないと困るので可能な限り少なくしたい。多重比較の時の補正の方法などがよく遭遇する場面だが、他にもさまざまなところで気をつけるべき事態に出くわす。基本的な考え方として第二種の過誤を減らして検出力を上げるのはいいが、第一種の過誤を「実際」より増やすような操作は不適切ということになる。ただし、「実際」の真の状態は普通は観測できないので、「論理的に実際より第一種の過誤を増やしそう」なことをすべきでないということになる。
巨大なサンプルサイズ:データ取得が自動でできるようになったことで増えてきたが、多くの統計手法ではサンプルサイズを大きくしていくとp値が小さくなる*。最適なサンプルサイズ(一応計算できる)を桁違いに超えるサンプルサイズでは本当は対応が必要。あまりに誰も考慮してないので気にしなくていいものなのかと勘違いしてしまう。
時系列データと回帰分析:よく知られているのであまり見かけないが、時系列データに回帰分析をかけると自己相関があるせい*でp値が小さくなる。
*厳密には違うが、実際に解析をする時にはだいたいそうだと思っていいはず
モデリング等
分断選択:縦軸に適応度、横軸に表現形(サイズなど)をとったグラフでV字あるいは二山形になることを証拠として分断選択があることを主張する。実際にはV字となることはなく二山形のグラフになる。適応度の谷に当たる部分は個体数(データ数)も少なくなりがちなので検出力が低い。実際に得られるデータで適切な解析ができる手法が生み出されれば報告が増えそうである。
カイ二乗検定:期待値と実測値の間に違いがあるかどうかを見ることができる検定であることを忘れがちである。理論値や期待値が求められる場合、複雑なモデリングより先に検討するべき。