Stats
統計的仮説検定とは?
本ページでは基本的な共通概念として、統計的仮説検定という考え方が出てくる。統計的仮説検定とは得られた標本(サンプル)をもとに、何らかの仮説、例えば「ある標本の平均値は0より大きいか」、「2つの標本は平均値が異なるか」など、を検証するための方法である。統計(特に生物統計)の初学者はつまづきやすいところであるが、知識の普及には至ってない実情があるように思われる。私も学び始めたころは、何を言っているのかちんぷんかんぷんであった。
ここでは、統計の感覚をつかんでもらうことを目的として、詳細な理論的背景には立ち入らず(偉そうなこと言ってるけど私も勉強中でわっかんね、ってことです)なるべく数式などは用いず(最近、これ嘘ついてるじゃんってなってるけど)、シミュレーションを中心に、解説を行っていく。何かの役に立ててもらえれば幸いである。基本的には初めに「不偏推定量&「不偏分散の平方根は標準偏差の不偏推定量ではない」と「t分布とt検定&統計的仮説検定の考え方」を読んでもらえれば、あとはどこを読んでも自由である。
統計ソフトウェアR
本ページで、シミュレーションをするのに用いるのがソフトウェアRである。フリーソフトウェアであり、生物統計を含めた幅広い領域で使われている。主に統計を行うためのものであるが、一通りの作図もこなすことができる。Statsのページでは、Rのコードを記載することが多いので、手元にRがあれば、自分でシミュレーションを行うことができる。ぜひとも、Rもインストールして臨んでほしい。以下は私がRを学んだ時にお世話になったページである。初学者は紹介したページを一通りこなしてみるとよい。
・R tips http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html (え、ページなくなってる……)
・R でプログラミング:データの一括処理とグラフ描き http://takenaka-akio.org/doc/r_auto/index.html
統計の勉強
統計自体も理解することも大変だが、それ以上にインターネット上には玉石混合の情報が存在し、それぞれで主張していることが一致していないことも混乱の要因である。以下のページは統計のプロフェッショナルによる、まさに玉と呼べるページであり、私自身も大変お世話になっている。ぜひとも活用しよう。
・奥村晴彦先生のページ https://okumuralab.org/~okumura/
・青木繁伸先生のページ http://aoki2.si.gunma-u.ac.jp/
・井口豊先生のページ https://biolab.sakura.ne.jp/index.html
・ほくそ笑む(hoxo_mさんのページ) https://hoxo-m.hatenablog.com/
・清水裕士先生のページ https://norimune.net/psychmetrics
実践ポリシーは「繰り返しと比較から学ぶ」
初めから、プログラムコードの1行1行を理解するのは無理だ。本ページでは、ほとんど同じプログラムコードを、省略することなく繰り返し用いる。まずは写経だと思って、載せたコードをそのまま打ち込んで実行してみよう。Rでプログラムを繰り返し実行することで、どんなことをやっているかを、実感してほしい。慣れてきたら、似たプログラムでも、どこが違うと、どんな出力の違いが出るかを、確認してみよう。自分であえてプログラムを書き換えて出力がどう変わるか確認するのもよい方法だ。泥臭いが、これが私なりの統計とプログラムを学んできた方法だ。プログラムを書き換えて出力を見るさまは、ちょうど、遺伝学における逆遺伝学の方法に近い感じがする。
Rを使った統計小話
●統計の基礎
不偏推定量&「不偏分散の平方根は標準偏差の不偏推定量ではない」
●1標本の検定
さまざまな母集団と1標本検定の危険率&2標本の場合も追記
●2標本の検定
t検定の基本はこちら→t分布とStudentのt検定&統計的仮説検定の考え方
Studentのt検定の再考1: 等分散性の要請とWelchのt検定
Studentのt検定の再考2: 独立性の要請と対応のあるt検定
Studentのt検定の再考3: 正規性の要請とMann-WhitneyのU検定
Studentのt検定の再考4: 独立性も正規性も満たされないとき……Wilcoxonの符号順位検定
Studentのt検定の再考5: 等分散性も正規性も満たされないとき……Brunner-Munzel検定(がマシ?)
●3標本以上の検定
2標本のt検定を複数回やってはだめ!: 複数回検定と有意水準の補正の必要性
3標本以上の検定1: 等分散性と正規性が満たされるとき: (一元配置)分散分析
3標本以上の検定2: 正規性が満たされないとき: Kruskul-Wallis検定
多重比較1: Tukey-Kramer法(TukeyのHSD)はt検定の拡張
多重比較2: Bonferroniの補正と証明&Holmの補正
多重比較3: 正規性が満たされないときのSteel-Dwass検定
●統計モデリング
検定から線形モデルへ:複数の説明変数や連続説明変数を使った解析への招待
線形モデル1:説明変数が2要因以上の分散分析:二元配置分散分析
2標本比較のStudentのt検定、分散分析、線形回帰は同じ結果を返す
交互作用が予測されるデータを交互作用無しのモデルで回帰すると?
非線形回帰モデルの最小二乗法:データが直線上に並ばないときの対処
予測性の良いモデルを構築する1:罰則項付き最小二乗法(LASSO回帰、Ridge回帰、Elastic net)
残差が正規分布でないときの線形モデルへのあてはめ?
線形モデルから一般化線形モデルへ:被説明変数の制約を緩める術と最尤法
一般化線形モデル1:被説明変数が0以上の離散値とポアソン分布
一般化線形モデル2:被説明変数が離散値に基づく割合データと二項分布
一般化線形モデル5:被説明変数が連続値に基づく割合データとベータ分布
予測性の良いモデルを構築する2:逸脱度および赤池情報量規準AIC
一般化線形モデルから一般化線形混合モデルへ:グループごとの違いを説明に取り込む
一般化線形(混合)モデル1:負の二項分布を使った離散値の過分散への対処
一般化線形(混合)モデル2:ベータ二項分布を使った離散値の過分散への対処
一般化線形(混合)モデル4:0を含む正の連続値への対処(ハードルモデル)
一般化線形(混合)モデル5:0が過剰な離散値への対処(ゼロ過剰モデル/ハードルモデル)
●統計いろいろ
分割表の統計: Fisherの正確確率検定とカイ二乗検定
スチューデント化範囲分布(Studentized range distribution)
相関の検定(おまけ:相関と因果の区別)
●統計関連の与太話
行列を扱えてお得に感じたこと:個体群増殖の話
検定早見表
●1標本と帰無仮説の平均/中央値/"勝率"の比較
標本に……
正規性あり:1標本のStudentのt検定→標本の差をとった後の対応のあるt検定と同じ
正規性なし:Wilcoxonの符号順位検定
●2標本の平均/中央値/"勝率"の比較
2標本間で……
等分散性あり/なし、独立性あり、正規性あり:Welchのt検定
等分散性あり、独立性なし、正規性あり:対応のあるt検定
分布の形が同一、独立性あり、正規性なし:Mann-WhitneyのU検定
分布の形が同一、独立性なし、正規性なし:Wilcoxonの符号順位検定
等分散性なし、独立性あり、正規性なし:Brunner-Munzel検定(がマシ?)
●3標本以上の平均/中央値/"勝率"の比較
標本間で……
等分散性あり、独立性あり、正規性あり、要因の効果の有無だけ知りたい:一元配置分散分析
等分散性あり、独立性あり、正規性あり、どの標本間に差があるか知りたい:Tukey-Kramer法
分布の形が同一、独立性あり、正規性なし、要因の効果の有無だけ知りたい:Kruskal-Wallis検定
分布の形が同一、独立性あり、正規性なし、どの標本間に差があるか知りたい:Steel-Dwass検定
複数回検定して、どの標本間に差があるか知りたい:Holmの補正