データ分析において,その対象とする全ての要素が含まれる集合のことを「 母集団 (population) 」といいます.母集団全体を分析できればよいのですが,規模が大きかったり,実施方法が難しいような場合には,母集団全体ではなく,その一部分からデータ分析をしなければならないこともあります.この母集団から抽出された一部分のことを「 標本 (sample) 」といいます.
実際には,母集団を標本から推測するという標本調査は,いろいろな場面で利用されています.しかし,一部分から推測しているので,どうしても母集団が持つ真の値との間に差が生じることは避けられません.では,その差とはどのようなものになるのでしょうか.
無作為抽出すなわちランダムに得られる標本から計算された統計量は,ランダムですので偶然に大きな値に偏ったり小さな値に偏ったりすることがあります.例えば,標本が今10個得られたとして,そこから母集団の平均を推定したい場合に標本平均を推定値としますが,その推定値が母集団の真の平均にどれだけ近いのかが問題となります.真の平均に極めて近い推定値になっているかも知れませんし,かなりズレた値かも知れません.標本は偶然に得られたものですから・・・.
推定値を一点で決めてしまうことを点推定といいます.しかし,標本の統計量はバラつきますので,点推定の値だけではその推定値がどれだけズレているのかを知る余地がありません.そこで,推定値にある一定の幅を持たせることで,この幅の間隔を見れば推定値のズレの度合いを知ることができるようにします.このように幅を待たせる推定方法を区間推定といい,幅の間隔のことを「 信頼区間 (CI: confidence interval) 」といいます.
母集団から抽出した標本を使って区間推定をする際に,その区間の幅を決めるための基準が必要です.信頼区間の幅を決める基準となるのが「 信頼度 (confidence level) 」と呼ばれるものになります.信頼水準,信頼係数とも呼ばれます.信頼度として慣例的によく用いられる基準は次の2種類です.
信頼度: 95%, 99%
この信頼度という基準があれば,例えば右図のように正規分布であれば平均を中心とした区間の幅が決まります.
信頼度95%ならば,残りの5%にはどういう意味があるのでしょうか.1から信頼度を引いた値を「 有意水準 (significance level) 」といい,記号では α がよく用いられます.信頼度が95%ならば有意水準は5%となります.有意水準は危険率とも呼ばれるもので,いわば間違った答えを出してしまう割合です.
例えば,有意水準5%というのは 5% = 1/20 ですので,同じことを20回やったら1回ぐらいは間違った答えを出してしまうという程度を示しています.有意水準1%なら 1% = 1/100 ですので,100回やれば1回ぐらいは間違うという程度になります.
右図をご覧ください.縦の点線は母集団の真の平均を表し,横棒1本で1回の標本抽出での区間推定の結果を示しています.20本ある各横棒の中央の点が標本平均,実線が信頼度95%の信頼区間,点線が信頼度99%の信頼区間を表しています.信頼度が高いほど信頼区間は広い幅をとります.この図では同じ標本抽出を20回やったときに 1回だけ 95%信頼区間内に真値が入っていない回(図中の赤印)があることがわかります.
このように,信頼区間とは,信頼度という基準で区間幅を推定したとき,同じ条件で標本抽出を何回か繰り返せば,区間内に真値が含まれる回数はこの程度だということを意味する幅を示しています.すなわち「95%信頼区間」とは,
× 「1つの信頼区間に真値の含まれる確率が95%」
○ 「複数の信頼区間の中で真値の含まれる信頼区間は95%」.
信頼区間の考え方について説明してきましたが,百聞は一見にしかずで,目で見える形にすることで,より一層理解が深まると思います.本当にそうなるのか,実際にシミュレーションで確かめてみましょう.
例として,標準正規分布 N(0,1) に従う母集団から10個の標本を抽出して標本平均と信頼区間を推定し,実際に信頼区間に真値が入っているときと外れるときがどの程度あるのかを見ることにします.
正規分布 N(μ, σ^2) に従う母集団からn個の標本を得たとき,その標本平均の分布は正規分布 N(μ, σ^2/n) に従うことがわかっています.つまり,標本平均の信頼区間の幅は,この分散 σ^2/n の正の平方根である標準偏差から求めることができ,信頼区間は信頼度に応じてこの標準偏差の何倍分の幅なのかを求めることになります.この信頼区間の幅の基準となる標本平均の分布の標準偏差のことを特に「標準誤差(SE: standard error)」と呼びます(広義には推定量の標準偏差を標準誤差という).
そこで,シミュレーションは,標準正規分布 N(0,1) に従う乱数 Xi をn=10個発生させて,そこから次式によって計算される平均の推定値と信頼区間を表示し,母集団の平均である μ=0 との関係を見ることになります.
・平均の推定値: Σ Xi/10
・標準誤差: 分散( σ^2/n = 1/10 )の平方根
・95%信頼区間: 平均 ± 1.96 × 標準誤差
・99%信頼区間: 平均 ± 2.58 × 標準誤差
これを何回か繰り返してみた結果の一部を右図に示します.図中の実線が信頼度95%の信頼区間,点線が信頼度99%の信頼区間を表し,20回分をまとめて表示しています.およそ20回に1回は95%信頼区間が真値から外れていることが分かります.
また,下図は信頼度は同じでサンプルサイズを n=10,30,100 と変えてシミュレーションした結果(一部)です.これらは信頼区間が真値から外れる程度は変わりませんが,真値に近いところでバラツキの幅は狭くなっており,サンプルサイズが大きいほど推定精度が良くなっていくイメージをうまく表現しています.このように,シミュレーションの結果を視覚的に見ることで,信頼区間の意味をよく理解できます.