カイ二乗分布、t分布、そしてF分布

目次

カイ二乗分布への理解がカギ

カイ二乗分布

t分布やF分布との関係

t分布との関係をさらに掘り下げー不偏分散と自由度

  ・不偏分散とカイ二乗分布の関係

  ・不偏分散とt分布の関係

  ・統計量tの分母の従う分布がわかれば自由度がわかる

追記:不偏分散を構成するn-1個のYの独立性

追記:不偏標準偏差

追記:非心t分布


カイ二乗分布への理解がカギ

 今まで、t検定ではt分布分散分析ではF分布など、検定統計量が従う確率分布を考えてきた。また、分割表の統計では、検定統計量χ^2を定義し、これが従う確率分布、カイ二乗分布chi-squared distribution, χ^2 distributionを紹介した。これら、カイ二乗分布、t分布、F分布は一見、互いに全く異なる分布に見えるが、実は密接に関連している。特に、後者の2つは、カイ二乗分布への理解を深めることで、その関係性がよくわかるようになるだろう。本項では、カイ二乗分布の定義から始め、t分布、F分布へ拡張してゆく。さらに、t分布などで重要な概念である自由度degree of freedomについて理解を深めてゆこう。


カイ二乗分布

 カイ二乗分布、t分布、F分布が互いに密接に関連しているといったが、それもそのはずで、そもそもt分布やF分布は、カイ二乗分布によって定義されている。ちなみにここで解説はしないが、カイ二乗分布はガンマ分布の特別な場合でもある。そこで、まずはカイ二乗分布の定義から確認してゆこう。

 カイ二乗分布は、標準正規分布に従うziをもとに、以下のように定義される。

つまり、標準正規分布に従う変数の二乗和が従う分布が、カイ二乗分布である。この時の、カイ二乗分布の自由度は、足し合わせた変数の数、ここではnである。

 このとき、カイ二乗分布の確率密度関数は以下の通り。

 では、具体的に計算して確かめてみよう。Rでは、例えば、以下のように計算できる。ここでは、自由度1,2,3,5,10を確かめてみる。各自、他に好きなように自由度をいじってみよう。


------------------------------------------------------

library(plotn)


n <- 1

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq, freq = F, xlab = "χ^2")#図1の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))


n <- 2

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq, freq = F, xlab = "χ^2")#図2の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))


n <- 3

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq, freq = F, xlab = "χ^2")#図3の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))


n <- 5

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq, freq = F, xlab = "χ^2")#図4の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))


n <- 10

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq, freq = F, xlab = "χ^2")#図5の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx, dchisq(xx, df = n), type = "l", col = "red"))

------------------------------------------------------

1 n = 1

2 n = 2

3 n = 3

4 n = 5

5 n = 10

上記の赤線はすべて、理論値を示す。カイ二乗分布は、自由度(= n)が1および2のとき、0に張り付いたような確率分布であり、それより大きくなると、一山型の確率分布となる

 自由度nのカイ二乗分布は、平均nである。以下のように統計量χ^2を、その自由度で割った統計量が従う分布は、修正カイ二乗分布(「bellcurve 統計WEB」より、英名は調べたけどわからない)と呼ばれる。カイ二乗分布は平均がnであるから、修正カイ二乗分布は平均が1になるように調整されたと言えるだろう。

定義から考えるに、明らかにこの修正カイ二乗は、いわゆる正規分布の標本分散を表す統計量である。つまり、カイ二乗分布への理解を深めることは、分散の挙動を理解することにつながるといえよう。

 修正カイ二乗分布についてもシミュレートしてみる。例えば、以下のようになる。


------------------------------------------------------

n <- 2

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq/n, freq = F, xlab = "χ^2")#図6の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))


n <- 5

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq/n, freq = F, xlab = "χ^2")#図7の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))


n <- 10

chisq <- NULL


for(i in 1:10000){

  z <- rnorm(n)

  chisq <- c(chisq, sum(z^2))

}


histn(chisq/n, freq = F, xlab = "χ^2")#図8の描画

xx <- seq(0, 30, length = 200)

overdraw(points(xx/n, dchisq(xx, df = n)*n, type = "l", col = "red"))

------------------------------------------------------

6 n = 2

7 n = 5

8 n = 10

自由度を大きくしていくと、平均1を中心に左右対称に近づいていく。最終的には正規分布に収束していくことが知られる。


t分布やF分布との関係

 では、t分布やF分布と、どのようにカイ二乗分布は関係しているのだろうか。まず、(Studentの)t分布(統計量t)は、以下のように修正カイ二乗を用いて定義される。

つまり、分子は正規分布、分母の二乗がカイ二乗分布に従う変数の時、tはカイ二乗と同じ自由度のt分布に従うということである。同じことの繰り返しのようなことを言うが、分子は正規分布、分母の二乗がカイ二乗分布に従う統計量があった時、カイ二乗分布の自由度がわかればt分布の自由度もわかることを意味する。この定義は、統計量tの深堀のために必要となるので、覚えておこう。

 また、F分布は以下のように定義する。

つまり、分子、分母がともにカイ二乗分布に従う変数の時、統計量FF分布に従うということである。特に重要な事実は、m = 1の時である。

分子のカイ二乗の自由度が1のとき、Fは統計量tの二乗と一致する。以前紹介したことがあるように、この事実が、2標本のt検定と分散分析が同じ結果を返す理由となっているのである。


t分布との関係をさらに掘り下げー不偏分散と自由度

 上記はt分布とカイ二乗分布を、定義をもとに結び付けたに過ぎない。ここからさらに、実用面に向けて、深堀をしていこう。


・不偏分散とカイ二乗分布の関係

 上記のカイ二乗分布は、確率変数zが標準正規分布に従う場合の定義であった。しかし、この世のすべてのデータが標準正規分布に従うわけではない。確率変数Xが、一般の正規分布N(μ, σ^2)に従うとき、以下のことがわかる(証明などは浅野晃先生の資料を参照した)。

z = (X - X¯)/σとすると、これのn個の二乗和は自由度n-1のカイ二乗分布に従う。n個の和なのに、あたかもn-1個の和としてふるまっている点が興味深い。元のカイ二乗分布の定義から、独立な確率変数の和の数=自由度であるから、z = (X - X¯)/σの二乗和は独立な確率変数がn-1個しかないことを示唆している。自由度とは、「自由に動かせるパラメータの数」と表現される。標本平均というパラメータが固定されているため、n個のzはすべて自由にパラメータを決めることができるわけでなく、n-1個を決めた時点で、ラストの1個は必ず値が固定化してしまう。

 よくある説明なのだが、なんとなくごまかされたような気持ちにもなる(私だけ?)。そこで、以下のように証明しよう。ここで、不偏分散とカイ二乗分布の関係を明らかにできる。まず、具体例をいくつか考える。n = 2のとき。

n = 2のときは、不偏分散は1つの独立な確率変数Y1の二乗和で表される。さらにY1/(σ√2)は標準正規分布に従うので、z = (X - X¯)/σの二乗和=統計量χ^2は、n-1 = 1個の標準正規分布の二乗和だから、定義から自由度n-1 = 1のカイ二乗分布に従うことがわかる。

 n = 3のとき。

やはり、不偏分散はn-1 = 2個の独立な正規分布に従う確率変数Y1とY2で表され、z = (X - X¯)/σの二乗和=統計量χ^2は、n-1 = 2個の標準正規分布の二乗和だから、定義から自由度n-1 = 2のカイ二乗分布に従うことがわかる(互いの確率変数の独立性についての証明は追記)。

 一般に、以下のように、不偏分散がn-1個の独立な確率変数Ynを構築できる。

一般の場合は、私が色々試行錯誤して行った証明(しかも、片手落ち)だが、ネットにはいくつかエレガントな証明があるので、そちらを参考にしたほうが良いだろう(鈴木譲氏のブログbiopapyrus高校数学の美しい物語)。以上から、サンプルサイズnにおける不偏分散と、自由度n-1のカイ二乗分布の関係が明らかになった。


・不偏分散とt分布の関係

 今度は不偏分散とt分布の関係を考えてみよう。その前にまず、一般の正規分布に従う確率変数Xとその標本平均X¯について考える。

中心極限定理から標本平均X¯は、正規分布N(μ, σ^2/n)に従う。ゆえに、z = (X¯ - μ)/√(σ^2/n)は標準正規分布に従う。さて、1標本の標本平均と帰無仮説の母平均が有意に異なるかどうか、は統計量zを用いれば、検定できそうだ。しかし、統計量zの計算には母分散が必要になる。一般には、母分散の情報はわからない。そこで、こちらで紹介したように母分散の代わりに不偏分散s^2を用いることで解決を目指すのだった。しかし、不偏分散を用いた統計量は標準正規分布に従わない。この不偏分散を使った統計量はStudentのtと呼ばれ、t分布を用いることで検定できるのだった。

しかし、この定義は、上記のカイ二乗分布を使った定義と形が異なる。そこで、次のように式変形する。

すると、分子は標準正規分布、分母の二乗はカイ二乗分布に帰着できる。しかも、カイ二乗分布の定義から、その自由度はn-1であることもわかる。ゆえに、サンプルサイズnのとき、統計量tは自由度n-1のt分布に従うのである。


・統計量tの分母の従う分布がわかれば自由度がわかる

 さて、ここまでで、統計量t、χ^2、不偏分散の関係が明らかになった。要は、tの分母の従うカイ二乗分布がわかれば、その自由度もほぼ自動的にわかる。例え、分母の形が変わったとしても、分母のニ乗がカイ二乗分布に従うことさえ分かれば、その自由度もわかるはずだ。

 例えば、2標本の平均値を比較するときに使われる統計量Studentのtは、帰無仮説が正しいとき(E(xA) = E(xB))に各サンプルサイズをnA、nBとすれば自由度nA + nB - 2のt分布に従うことがわかる(対立仮説が正しいとき、E(xA) E(xB)は後述)。

では、より一般に使える統計量Welchのtの自由度はどうなるのだろう? 残念ながら、この場合、自由度は簡単にはわからない。というのも、分母の二乗は、今までと異なり解析的に表現が不可能だからである。ただし、カイ二乗分布に近似できはするので、その近似されたカイ二乗分布の自由度をもとめることで代替する。しかし、それでも簡単に表現できるわけではない。ここで、近似されたカイ二乗分布の自由度を計算するために登場するのが、Welch–Satterthwaiteの式なのである。


追記:不偏分散を構成するn-1個のYの独立性

 途中、サンプルサイズnの不偏分散はn-1個の独立な正規分布に従う確率変数Yの二乗和で表現できることを紹介した。ここでは、上記のように定義したYが、互いに独立であることを示す。以下のように計算できる。まず、正規分布に従う確率変数Xについて、以下の性質を導く。

このとき、Yを以下のように定義し、下記の性質を導く。

以上の性質を用いて、以下のように証明する。

追記:不偏標準偏差

 途中で、サンプルサイズnから求めた不偏分散が、自由度n-1のカイ二乗分布に従うことを紹介した。この性質から、不偏標準偏差を求めることができる。以下のとおりである。

追記:非心t分布noncentric t-distribution

 対立仮説が正しい、つまり、正規分布に従う確率変数x、xA、xBのついて、E(x) ≠ μとか、E(xA) - E(xB) ≠ 0のとき、検定統計量tは、いわゆるt分布に従わない。これは単純に平均値の差の分だけずれるという意味ではない。本来、t分布が持つ、対称性も失われる

 例えば、1標本のt検定における検定統計量は以下である。

帰無仮説が正しくE(x) = μであれば、分子の平均は0となるから、標準正規分布に変数変換できる。もし、対立仮説が正しくE(x) = μ + M(M ≠ 0)であり、帰無仮説E(x) = μのもとでtを計算すると、以下のようになる。

対立仮説が正してE(xA) - E(xB) ≠ 0のとき、帰無仮説E(xA) - E(xB) = 0の下でtを計算しても、分子を定数と標準正規分布に従う確率変数に分離できる。このような定数 ≠ 0のときのtが従う分布が非心t分布である。