等分散検定から t検定,ウェルチ検定,U検定への問題点

井口豊(生物科学研究所,長野県岡谷市)
最終更新:2017年10月30日

平均値の差をt検定するときに,基礎的な統計の教科書には,たいてい次のようなことが書かれている。

まず等分散の検定(通常はF検定)を行い,その上で,等分散なら通常の t 検定,等分散でなければ,いわゆるウェルチ(Welch)検定を行う。

しかしながら,この 2 段階検定は,最終的には,それぞれを単独に検定する場合とは異なる有意値を出す。その点に気づいてない人が,教員も含め,かなりいるようである。これは,2 群(2 標本)のときの t 検定だけでなく,3 群(3 標本)以上のときの分散分析(ANOVA)でも当然起きる問題である。

つまり,この 2段階検定では,第 1 段階の等分散検定で,既に間違える可能性を含んでいるので,第 2 段階のウェルチ検定を合わせて行うと,最終結果は,単独の検定として設定した水準(例えば,5%)を超える有意確率を出してしまうのである。

例えば,宝くじに当たる確率を考えてほしい。1 本当選する確率と 2 本続けて当選する確率は当然異なり,後者の方が確率が低いだろうことは直感的にも想像できる。上記の検定でも同じことで,95%という言わば「安全確率」は, 2 度検定を続ければ下がってしまうことは理解できるだろう。

統計学で検定を学ぶ頃には,既に,確率論の基礎的な部分を学んでいるので,敢えて,このような「わかりきったこと」は書かないという風潮もありそうだ。しかし,いきなり検定に臨もうとする初学者には迷惑な話だろう。

この問題を Web 上で明確に指摘しているのは,以下のページである。

青木繁伸による 二群の等分散性の検定

等分散であるかどうかを確かめてから,普通の t 検定を使うか,Welch の方法による t 検定にするかを決めるというのは,よくない。最初から Welch の方法による t 検定を使えばよい。

千野直仁(愛知学院大)による平均の差の検定における2種類の統計量の独立性と全体的危険率

F検定とt検定という統計検定をこの順で続けて2つ行うことによる 検定全体の統計的過誤のコントロールの問題。 これに対する対処法について記述している入門的テキストは極めて少ない。

対馬栄輝(弘前大学)による統計解析Q&A-差の検定-

分散分析の前に等分散性の検定を行うことは理論的に間違い。

帝京大の心理学サイト

多重比較のときと同様にあるデータに対して複数の検定を行う手順を実施するとき、各検定の有意水準を5%にすると手順全体における有意水準が5%にならない。

統計ソフトの利用ガイドで,この2段階検定の危険性を指摘しているものもある。GraphPad Prism の Q & A で,How to compare two means when the groups have different standard deviations.

If you use the F test to compare variances to decide which t test to use (regular or Welch), you will have increased your risk of a Type I error.

さらに,奥村晴彦(三重大)が,2段階t検定の是非で,2 段階検定では,5%や1%水準で検定したつもりでも,実際は,それ以上の確率が出ていることをシミュレーションで示している。

この問題を回避するためには,例えば,5%水準で検定するなら,上述の二つの検定の水準を半分にし(2.5%),二つ合わせて5%にする方法がある。多重比較検定でのボンフェローニ補正に相当する。この方法を勧めているのは,統計の専門書では,竹内啓・大橋靖雄(1981) 入門・現代の数学11「統計的推測」(日本評論社)である。ネット上では,上記の千野や帝京大サイトである。

一方で,思い切って,等分散検定(F 検定)をやめて,ウェルチ検定のみをする方法もある。ウェルチ検定なら,分散が等しくても,等しくなくても,大きな過誤なく検定できるだろうという考えである。それを勧めているのは,ネット上では,上記の青木,千野氏,奥村である。対馬も,等分散性の検定はあまり当てにならない,述べているので,ウェルチ検定単独を推奨するかもしれない。

フリーの統計解析ソフト R では,t.test 関数を使いt検定を行うとき,デフォルトで,つまりオプションを特に指定しなければ,Welch 検定が実行されるようになっている。

数式処理フリーソフト Maxima も R と同じく,平均値の差の検定を,デフォルトで Welch 検定として行なう。れに関しては,私のブログ参照。

このブログに書いたように,情報教育分野の大学教員でさえ,いまだに等分散検定のあとに,t検定の種類選択を行なうという不適切な方法を採用した論文を書いているのには驚いた。

同様に,大学教員らしき人の解説として,t検定1(独立したサンプルのt検定)というウェブページでも,検定の多重性に触れないどころか,盛んに 5%水準で有意か否か判定している。もし本当に大学で教えているなら,検定上の問題点まできちんと教えてほしいものだ。

海外に目を向けると,例えば, Hanover College の William Altermatt が書いた t 検定の解説では,太字で次のように,きちんと書いてある。

Do not assume equal variance

その上で,次のように書かれている。

The "Unequal Variance (Welch)" method will work whether your two groups have similar or dissimilar variance
ウェルチ検定ならば,2 群の分散が同じでも同じでなくても検定できる,と言うのである。。

統計解析ツール Statwing でも,等分散か否かに関わらず,デフォルトでWelch検定を採用している。また,正規性が満たされないデータには,ランク化されたt検定(ranked t-test)を採用。さらに,分散分析においても,Welch’s F Test ANOVAおよびランク化された同検定が採用されている。

統計ソフト Minitab のアシスタント機能の解説では,わざわざ 2-SAMPLE t-TEST という論文で,シミュレーションを行って,通常の t 検定とウェルチ検定の比較を示している。

その結果が,p.3 Results に書かれている。

the theoretical superiority of the classical 2-sample test over Welch’s t-test has a little or no practical value. For this reason, the Assistant uses Welch’s t-test to compare the means of two populations.

つまり,ウェルチ検定は,等分散でない時に使う,ではなく,等分散か否か検討せずに使える,と考えたほうが良いのである。分析データが,この論文後半に書かれているので,興味ある人は見てほしい。

このように,t 検定を使う場合,等分散かどうかを事前に調べる,いわゆる 2 段階検定が望ましくない,ということは,Zimmerman (2004) の論文で明確に主張されている(文献リストは末尾に掲載)。例えば, p.104 には,次のように書かれている。

it is inefficient to base a decision on preliminary tests of equality of variances and modern textbooks no longer recommend preliminary tests"(一部略)

等分散かどうかという事前検定は役立たないし,最近では推奨もされないのである。

さらに,Mann-Whitney U 検定や Kruskal-Wallis 検定の問題点も指摘している。

More recently it has become apparent that these nonparametric methods, also are strongly affected by variance heterogeneity

いわゆるノンパラメトリック検定でも等分散でないと正しい結果が出ないのである。ノンパラメトリック検定だからと言って,仮定フリーというわけではないのである。ノンパラメトリック検定が,どんなデータに対しても万能であるかのような錯覚を抱いている人は注意すべきである。この点に関しては,私のブログ参照。

等分散性に関するノンパラメトリック検定の問題点に関しては,富原(2005)も大いに参考なる。

のちにウェルチ検定(Welch test)と名づけられる検定のアイデアは,Welch (1938) の論文に見られる。これは,統計学発展の歴史を考える上でも重要な論文であり,私のブログでも触れた。

前述の Altermatt が指摘したことを,このブログでも書いたが,Welch (1938) は,等分散か否かに関係なく適用できる検定として,この検定を考案したのである。

日本で,この論文に触れられることは少ない。少なくとも,一般向け,あるいは,学生向けの解説では,そのような傾向がある。ウィキペディアのウェルチの t 検定の項目でも,この文献が挙がっていなかったので,追記しておいた(ウェルチのt検定の変更履歴,Iguchi-Y)。

日本語論文では,高岸(2014)が,等分散検定と t 検定を併用した場合の検定の多重性問題に触れている。ただし,彼がサンプル数と言っているものは,サンプルサイズと言うのが正しい。この間違いは非常に多いので注意すべきである。それに関しては,私の統計解説参照。

また,Ruxton (2006) は,通常の t 検定や Mann–Whitney U 検定でなく,常に Welch 検定(本論文では,unequal variance t-test)を推奨している。さらに,Winter and Dodou (2010) は,リッカート尺度(Likert scale)のデータに対して,t 検定と U 検定が,多くの場合において,同等な検出力(power)を持つことを示した。

参考文献

Ruxton, G. D. (2006))
The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test
Behavioral Ecology 17: 688-69.

高岸聖彦(2014)
独立 2 群間の平均値の比較の際に生じる多重性の問題について
生物統計学(統計関連の覚書)

富原一哉(2005)
日本の心理学研究論文におけるMann-WhitneyのU検定の誤用とその対策
人文学科論集, (61): 1-6.

Welch, B. L. (1938)
The significance of the difference between two means when the population variances are unequal Biometrika, 350-362.

De Winter, JCF. and Dodou, D. (2010)
Five-point Likert items: t test versus Mann Whitney Wilcoxon
Practical Assessment Research & Evaluation 15(11): 1-16.

Zimmerman, D. W. (2004)
Inflation of Type I Error Rates by Unequal Variances Associated with Parametric, Nonparametric, and Rank-Transformation Tests
Psicologica, 25(1): 103-133.