カイ二乗分布、t分布、そしてF分布
目次
カイ二乗分布への理解がカギ
今まで、t検定ではt分布、分散分析ではF分布など、検定統計量が従う確率分布を考えてきた。また、分割表の統計では、検定統計量χ^2を定義し、これが従う確率分布、カイ二乗分布chi-squared distribution, χ^2 distributionを紹介した。これら、カイ二乗分布、t分布、F分布は一見、互いに全く異なる分布に見えるが、実は密接に関連している。特に、後者の2つは、カイ二乗分布への理解を深めることで、その関係性がよくわかるようになるだろう。本項では、カイ二乗分布の定義から始め、t分布、F分布へ拡張してゆく。さらに、t分布などで重要な概念である自由度degree of freedomについて理解を深めてゆこう。
カイ二乗分布
カイ二乗分布、t分布、F分布が互いに密接に関連しているといったが、それもそのはずで、そもそもt分布やF分布は、カイ二乗分布によって定義されている。ちなみにここで解説はしないが、カイ二乗分布はガンマ分布の特別な場合でもある。そこで、まずはカイ二乗分布の定義から確認してゆこう。
カイ二乗分布は、標準正規分布に従うziをもとに、以下のように定義される。
つまり、標準正規分布に従う変数の二乗和が従う分布が、カイ二乗分布である。この時の、カイ二乗分布の自由度は、足し合わせた変数の数、ここではnである。
このとき、カイ二乗分布の確率密度関数は以下の通り。
では、具体的に計算して確かめてみよう。Rでは、例えば、以下のように計算できる。ここでは、自由度1,2,3,5,10を確かめてみる。各自、他に好きなように自由度をいじってみよう。
------------------------------------------------------
library(plotn)
n <- 1
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq, freq = F, xlab = "χ^2")#図1の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))
n <- 2
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq, freq = F, xlab = "χ^2")#図2の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))
n <- 3
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq, freq = F, xlab = "χ^2")#図3の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))
n <- 5
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq, freq = F, xlab = "χ^2")#図4の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))
n <- 10
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq, freq = F, xlab = "χ^2")#図5の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))
------------------------------------------------------
図1 n = 1
図2 n = 2
図3 n = 3
図4 n = 5
図5 n = 10
上記の赤線はすべて、理論値を示す。カイ二乗分布は、自由度(= n)が1および2のとき、0に張り付いたような確率分布であり、それより大きくなると、一山型の確率分布となる。
自由度nのカイ二乗分布は、平均nである。以下のように統計量χ^2を、その自由度で割った統計量が従う分布は、修正カイ二乗分布(「bellcurve 統計WEB」より、英名は調べたけどわからない)と呼ばれる。カイ二乗分布は平均がnであるから、修正カイ二乗分布は平均が1になるように調整されたと言えるだろう。
定義から考えるに、明らかにこの修正カイ二乗は、いわゆる正規分布の標本分散を表す統計量である。つまり、カイ二乗分布への理解を深めることは、分散の挙動を理解することにつながるといえよう。
修正カイ二乗分布についてもシミュレートしてみる。例えば、以下のようになる。
------------------------------------------------------
n <- 2
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq/n, freq = F, xlab = "χ^2")#図6の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))
n <- 5
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq/n, freq = F, xlab = "χ^2")#図7の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))
n <- 10
chisq <- NULL
for(i in 1:10000){
z <- rnorm(n)
chisq <- c(chisq, sum(z^2))
}
histn(chisq/n, freq = F, xlab = "χ^2")#図8の描画
xx <- seq(0, 30, length = 200)
overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))
------------------------------------------------------
図6 n = 2
図7 n = 5
図8 n = 10
自由度を大きくしていくと、平均1を中心に左右対称に近づいていく。最終的には正規分布に収束していくことが知られる。
t分布やF分布との関係
では、t分布やF分布と、どのようにカイ二乗分布は関係しているのだろうか。まず、(Studentの)t分布(統計量t)は、以下のように修正カイ二乗を用いて定義される。
つまり、分子は正規分布、分母の二乗がカイ二乗分布に従う変数の時、tはカイ二乗と同じ自由度のt分布に従うということである。同じことの繰り返しのようなことを言うが、分子は正規分布、分母の二乗がカイ二乗分布に従う統計量があった時、カイ二乗分布の自由度がわかればt分布の自由度もわかることを意味する。この定義は、統計量tの深堀のために必要となるので、覚えておこう。
また、F分布は以下のように定義する。
つまり、分子、分母がともにカイ二乗分布に従う変数の時、統計量FはF分布に従うということである。特に重要な事実は、m = 1の時である。
分子のカイ二乗の自由度が1のとき、Fは統計量tの二乗と一致する。以前紹介したことがあるように、この事実が、2標本のt検定と分散分析が同じ結果を返す理由となっているのである。
t分布との関係をさらに掘り下げー不偏分散と自由度
上記はt分布とカイ二乗分布を、定義をもとに結び付けたに過ぎない。ここからさらに、実用面に向けて、深堀をしていこう。
・不偏分散とカイ二乗分布の関係
上記のカイ二乗分布は、確率変数zが標準正規分布に従う場合の定義であった。しかし、この世のすべてのデータが標準正規分布に従うわけではない。確率変数Xが、一般の正規分布N(μ, σ^2)に従うとき、以下のことがわかる(証明などは浅野晃先生の資料を参照した)。
z = (X - X¯)/σとすると、これのn個の二乗和は自由度n-1のカイ二乗分布に従う。n個の和なのに、あたかもn-1個の和としてふるまっている点が興味深い。元のカイ二乗分布の定義から、独立な確率変数の和の数=自由度であるから、z = (X - X¯)/σの二乗和は独立な確率変数がn-1個しかないことを示唆している。自由度とは、「自由に動かせるパラメータの数」と表現される。標本平均というパラメータが固定されているため、n個のzはすべて自由にパラメータを決めることができるわけでなく、n-1個を決めた時点で、ラストの1個は必ず値が固定化してしまう。
よくある説明なのだが、なんとなくごまかされたような気持ちにもなる(私だけ?)。そこで、以下のように証明しよう。ここで、不偏分散とカイ二乗分布の関係を明らかにできる。まず、具体例をいくつか考える。n = 2のとき。
n = 2のときは、不偏分散は1つの独立な確率変数Y1の二乗和で表される。さらにY1/(σ√2)は標準正規分布に従うので、z = (X - X¯)/σの二乗和=統計量χ^2は、n-1 = 1個の標準正規分布の二乗和だから、定義から自由度n-1 = 1のカイ二乗分布に従うことがわかる。
n = 3のとき。
やはり、不偏分散はn-1 = 2個の独立な正規分布に従う確率変数Y1とY2で表され、z = (X - X¯)/σの二乗和=統計量χ^2は、n-1 = 2個の標準正規分布の二乗和だから、定義から自由度n-1 = 2のカイ二乗分布に従うことがわかる(互いの確率変数の独立性についての証明は追記)。
一般に、以下のように、不偏分散がn-1個の独立な確率変数Ynを構築できる。
一般の場合は、私が色々試行錯誤して行った証明(しかも、片手落ち)だが、ネットにはいくつかエレガントな証明があるので、そちらを参考にしたほうが良いだろう(鈴木譲氏のブログ、biopapyrus、高校数学の美しい物語)。以上から、サンプルサイズnにおける不偏分散と、自由度n-1のカイ二乗分布の関係が明らかになった。
・不偏分散とt分布の関係
今度は不偏分散とt分布の関係を考えてみよう。その前にまず、一般の正規分布に従う確率変数Xとその標本平均X¯について考える。
中心極限定理から標本平均X¯は、正規分布N(μ, σ^2/n)に従う。ゆえに、z = (X¯ - μ)/√(σ^2/n)は標準正規分布に従う。さて、1標本の標本平均と帰無仮説の母平均が有意に異なるかどうか、は統計量zを用いれば、検定できそうだ。しかし、統計量zの計算には母分散が必要になる。一般には、母分散の情報はわからない。そこで、こちらで紹介したように母分散の代わりに不偏分散s^2を用いることで解決を目指すのだった。しかし、不偏分散を用いた統計量は標準正規分布に従わない。この不偏分散を使った統計量はStudentのtと呼ばれ、t分布を用いることで検定できるのだった。
しかし、この定義は、上記のカイ二乗分布を使った定義と形が異なる。そこで、次のように式変形する。
すると、分子は標準正規分布、分母の二乗はカイ二乗分布に帰着できる。しかも、カイ二乗分布の定義から、その自由度はn-1であることもわかる。ゆえに、サンプルサイズnのとき、統計量tは自由度n-1のt分布に従うのである。
・統計量tの分母の従う分布がわかれば自由度がわかる
さて、ここまでで、統計量t、χ^2、不偏分散の関係が明らかになった。要は、tの分母の従うカイ二乗分布がわかれば、その自由度もほぼ自動的にわかる。例え、分母の形が変わったとしても、分母のニ乗がカイ二乗分布に従うことさえ分かれば、その自由度もわかるはずだ。
例えば、2標本の平均値を比較するときに使われる統計量Studentのtは、帰無仮説が正しいとき(E(xA) = E(xB))に各サンプルサイズをnA、nBとすれば自由度nA + nB - 2のt分布に従うことがわかる(対立仮説が正しいとき、E(xA) ≠ E(xB)は後述)。
では、より一般に使える統計量Welchのtの自由度はどうなるのだろう? 残念ながら、この場合、自由度は簡単にはわからない。というのも、分母の二乗は、今までと異なり解析的に表現が不可能だからである。ただし、カイ二乗分布に近似できはするので、その近似されたカイ二乗分布の自由度をもとめることで代替する。しかし、それでも簡単に表現できるわけではない。ここで、近似されたカイ二乗分布の自由度を計算するために登場するのが、Welch–Satterthwaiteの式なのである。
追記:不偏分散を構成するn-1個のYの独立性
途中、サンプルサイズnの不偏分散はn-1個の独立な正規分布に従う確率変数Yの二乗和で表現できることを紹介した。ここでは、上記のように定義したYが、互いに独立であることを示す。以下のように計算できる。まず、正規分布に従う確率変数Xについて、以下の性質を導く。
このとき、Yを以下のように定義し、下記の性質を導く。
以上の性質を用いて、以下のように証明する。
追記:不偏標準偏差
途中で、サンプルサイズnから求めた不偏分散が、自由度n-1のカイ二乗分布に従うことを紹介した。この性質から、不偏標準偏差を求めることができる。以下のとおりである。
追記:非心t分布noncentric t-distribution
対立仮説が正しい、つまり、正規分布に従う確率変数x、xA、xBのついて、E(x) ≠ μとか、E(xA) - E(xB) ≠ 0のとき、検定統計量tは、いわゆるt分布に従わない。これは単純に平均値の差の分だけずれるという意味ではない。本来、t分布が持つ、対称性も失われる。
例えば、1標本のt検定における検定統計量は以下である。
帰無仮説が正しくE(x) = μであれば、分子の平均は0となるから、標準正規分布に変数変換できる。もし、対立仮説が正しくE(x) = μ + M(M ≠ 0)であり、帰無仮説E(x) = μのもとでtを計算すると、以下のようになる。
対立仮説が正してE(xA) - E(xB) ≠ 0のとき、帰無仮説E(xA) - E(xB) = 0の下でtを計算しても、分子を定数と標準正規分布に従う確率変数に分離できる。このような定数 ≠ 0のときのtが従う分布が非心t分布である。