Stats

統計的仮説検定とは?

 本ページでは基本的な共通概念として、統計的仮説検定という考え方が出てくる。統計的仮説検定とは得られた標本(サンプル)をもとに、何らかの仮説、例えば「ある標本の平均値は0より大きいか」、「2つの標本は平均値が異なるか」など、を検証するための方法である。統計(特に生物統計)の初学者はつまづきやすいところであるが、知識の普及には至ってない実情があるように思われる。私も学び始めたころは、何を言っているのかちんぷんかんぷんであった。

 ここでは、統計の感覚をつかんでもらうことを目的として、詳細な理論的背景には立ち入らず(偉そうなこと言ってるけど私も勉強中でわっかんね、ってことです)なるべく数式などは用いず(最近、これ嘘ついてるじゃんってなってるけど)、シミュレーションを中心、解説を行っていく。何かの役に立ててもらえれば幸いである。基本的には初めに「不偏推定量&「不偏分散の平方根は標準偏差の不偏推定量ではない」と「t分布とt検定&統計的仮説検定の考え方」を読んでもらえれば、あとはどこを読んでも自由である。


統計ソフトウェアR

 本ページでシミュレーションをするのに用いるのがソフトウェアRである。フリーソフトウェアであり、生物統計を含めた幅広い領域で使われている。主に統計を行うためのものであるが、一通りの作図もこなすことができる。Statsのページでは、Rのコードを記載することが多いので、手元にRがあれば、自分でシミュレーションを行うことができる。ぜひとも、Rもインストールして臨んでほしい。以下は私がRを学んだ時にお世話になったページである。初学者は紹介したページを一通りこなしてみるとよい。

・R tips http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html (え、ページなくなってる……)

・R でプログラミング:データの一括処理とグラフ描き http://takenaka-akio.org/doc/r_auto/index.html


統計の勉強

 統計自体も理解することも大変だが、それ以上にインターネット上には玉石混合の情報が存在し、それぞれで主張していることが一致していないことも混乱の要因である。以下のページは統計のプロフェッショナルによる、まさに玉と呼べるページであり、私自身も大変お世話になっている。ぜひとも活用しよう。

奥村晴彦先生のページ https://okumuralab.org/~okumura/

・青木繁伸先生のページ http://aoki2.si.gunma-u.ac.jp/

・井口豊先生のページ https://biolab.sakura.ne.jp/index.html

・ほくそ笑む(hoxo_mさんのページ) https://hoxo-m.hatenablog.com/

清水裕士先生のページ https://norimune.net/psychmetrics


実践ポリシーは「繰り返しと比較から学ぶ」

 初めから、プログラムコードの1行1行を理解するのは無理だ。本ページでは、ほとんど同じプログラムコードを、省略することなく繰り返し用いる。まずは写経だと思って、載せたコードをそのまま打ち込んで実行してみよう。Rでプログラムを繰り返し実行することで、どんなことをやっているかを、実感してほしい。慣れてきたら、似たプログラムでも、どこが違うと、どんな出力の違いが出るかを、確認してみよう。自分であえてプログラムを書き換えて出力がどう変わるか確認するのもよい方法だ。泥臭いが、これが私なりの統計とプログラムを学んできた方法だ。プログラムを書き換えて出力を見るさまは、ちょうど、遺伝学における逆遺伝学の方法に近い感じがする。

Rを使った統計小話

●統計の基礎

 不偏推定量&「不偏分散の平方根は標準偏差の不偏推定量ではない」

 t分布とStudentのt検定&統計的仮説検定の考え方

 z検定とt検定:母分散が既知かどうかで検定が変わる?

 第1種の過誤と第2種の過誤

 中心極限定理と標準誤差

 両側検定と片側検定


1標本検定

 さまざまな母集団と1標本検定の危険率&2標本の場合も追記


2標本の検定

 t検定の基本はこちら→t分布とStudentのt検定&統計的仮説検定の考え方

 Studentのt検定の再考1: 等分散性の要請とWelchのt検定

 Studentのt検定の再考2: 独立性の要請と対応のあるt検定

 Studentのt検定の再考3: 正規性の要請とMann-WhitneyのU検定

 Studentのt検定の再考4: 独立性も正規性も満たされないとき……Wilcoxonの符号順位検定

 Studentのt検定の再考5: 等分散性も正規性も満たされないとき……Brunner-Munzel検定(がマシ?)


●3標本以上の検定

 2標本のt検定を複数回やってはだめ!: 複数回検定と有意水準の補正の必要性

 3標本以上の検定1: 等分散性と正規性が満たされるとき: (一元配置)分散分析

 3標本以上の検定2: 正規性が満たされないとき: Kruskul-Wallis検定

 多重比較1: Tukey-Kramer法(TukeyのHSD)はt検定の拡張

 多重比較2: Bonferroniの補正と証明&Holmの補正

 多重比較3: 正規性が満たされないときのSteel-Dwass検定


統計モデリング

 検定から線形モデルへ:複数の説明変数や連続説明変数を使った解析への招待

 線形モデル1説明変数が2要因以上の分散分析:二元配置分散分析

 線形モデル2説明変数が連続変数である解析:線形回帰

 線形モデル3:連続変数×カテゴリカル変数の多重線形回帰

 線形モデル4:連続変数×連続変数の多重線形回帰

 2標本比較のStudentのt検定、分散分析、線形回帰は同じ結果を返す

 交互作用が予測されるデータを交互作用無しのモデルで回帰すると?

 多重線形回帰における変数のスケーリングと回帰係数の解釈

 要因間の相関が生み出す問題:多重共線性

 非線形回帰モデルの最小二乗法:データが直線上に並ばないときの対処

 予測性の良いモデルを構築する1:罰則項付き最小二乗法(LASSO回帰、Ridge回帰、Elastic net)

 残差が正規分布でないときの線形モデルへのあてはめ?

 順序のあるカテゴリカル変数が説明変数のときの統計メモ

 説明変数に誤差がある場合における推定精度:II型回帰

 線形モデルから一般化線形モデルへ:被説明変数の制約を緩める術と最尤法

 一般化線形モデル1:被説明変数が0以上の離散値とポアソン分布

 一般化線形モデル2:被説明変数が離散値に基づく割合データと二項分布

 一般化線形モデル3:被説明変数が正の連続値とガンマ分布

 一般化線形モデル4割り算値の統計モデリングとオフセット項

 一般化線形モデル5被説明変数が連続値に基づく割合データとベータ分布

 予測性の良いモデルを構築する2:逸脱度および赤池情報量規準AIC

 カウントデータにおける過剰分散があるときの推定精度

 一般化線形モデルから一般化線形混合モデルへ:グループごとの違いを説明に取り込む

 一般化線形(混合)モデル1:負の二項分布を使った離散値の過分散への対処

 一般化線形(混合)モデル2ベータ二項分布を使った離散値の過分散への対処

 一般化線形混合モデル3:過分散な離散値への一般的な対処

 一般化線形(混合)モデル40を含む正の連続値への対処(ハードルモデル)

 一般化線形(混合)モデル5:0が過剰な離散値への対処(ゼロ過剰モデル/ハードルモデル)

 一般化線形混合モデル6切片・傾きにランダム効果がある場合

 集団内の傾きと全体の傾きが異なる場合

 階層的なランダム効果を持つときの考え方

 一般化加法モデル:ぐにゃぐにゃな曲線を描く


統計いろいろ

 二項検定で考える漸近検定と正確検定

 並べ替え検定(Permutation test)

 分割表の統計: Fisherの正確確率検定カイ二乗検定

 スチューデント化範囲分布(Studentized range distribution)

 相関の検定(おまけ:相関と因果の区別)

 様々な区間推定(信頼区間、予測区間)

 多次元データを要約する:主成分分析

 尤度比検定(likelihood ratio test)

 平均が正規分布に従う正規分布は正規分布になる

 系統樹を最尤推定する


●統計関連の与太話

 行列を扱えてお得に感じたこと:個体群増殖の話

 繁殖スケジュールのリスク分散は攪乱環境下で有利なのか?

検定早見表

●1標本と帰無仮説の平均/中央値/"勝率"の比較

 標本に……

  正規性あり:1標本のStudentのt検定→標本の差をとった後の対応のあるt検定と同じ

  正規性なしWilcoxonの符号順位検定

●2標本の平均/中央値/"勝率"の比較

 2標本間で……

  等分散性あり/なし、独立性あり、正規性あり:Welchのt検定

  等分散性あり、独立性なし、正規性あり対応のあるt検定

  分布の形が同一、独立性あり正規性なしMann-WhitneyのU検定

  分布の形が同一独立性なし正規性なしWilcoxonの符号順位検定

  等分散性なし、独立性あり正規性なしBrunner-Munzel検定(がマシ?)

3標本以上の平均/中央値/"勝率"の比較

 標本間で……

  等分散性あり、独立性あり、正規性あり要因の効果の有無だけ知りたい一元配置分散分析

  等分散性あり、独立性あり、正規性あり、どの標本間に差があるか知りたいTukey-Kramer法

  分布の形が同一、独立性あり、正規性なし、要因の効果の有無だけ知りたい:Kruskal-Wallis検定

  分布の形が同一、独立性あり、正規性なし、どの標本間に差があるか知りたい:Steel-Dwass検定

  複数回検定して、どの標本間に差があるか知りたいHolmの補正

セミナー資料

怖くない!ざっくり学ぶ統計:龍谷大学生向けに作ったやつ、本当にさわりだけ