資料分析1 - 抽樣分佈與估計

抽樣分佈與估計

1. 重點就是在一個「猜」字

每次聽到同學們說:「喔喔喔我要開始跑統計了...」，「電腦算出來結果是...」，「我的得到的結果不太好耶...」，我就忍不住想提醒同學 – 你剛剛講的「跑」、「算」、「得到」這些動詞，其實都應該改成猜。

好啦，如果有人覺得猜這個字很不學術，那就說「估計」(estimate)好了。但講嘴巴講估計，你還是在做「猜」這件事。重點不在於到底是猜還是估計，還是亂猜或是亂估計...。重點是你到底在猜什麼?

比方某同學找了20位用過去敏感牙膏的病人，問他們用了去敏感牙膏後的經驗。他想知道的是什麼?

(1) 這20位用過去敏感牙膏病人的經驗。

(2) 所有「用過去敏感牙膏病人」的經驗。

如果他想問的是(1)，那麼這個研究就非常簡單了，他只要把所有20個人的滿意度或是敏感改善程度做一個表格秀出來就好了。這裡不需要任何「猜」的工作。但另一方面，如果他想問的是(2)，那麼他就必須要猜 – 他要利用現在已經有的20位病患的資料，去「猜」所有這類型病患的經驗如何。比方說，他得根據20位病患的平均使用後滿意度，去猜或估計所有這些病患的平均使用後滿意度。

也就是說，用從樣本獲得的參數去猜(估計)想母群的參數。

上面講的這件事(過程)我們稱為「推論」，這件事是整個統計學的核心。

p.s. 你可能會想，那假使我去調查「所有用去過敏牙膏病人」的經驗，一個都不少，把這些人通通抓來調查，那(2)不就還原到(1)的情況? 確實如此啊! 但問題是你可能沒有那麼多時間與金錢做這件事...，還有，母群的個數有沒有可能是無限的?

2. 怎麼猜? (學術語言: 怎樣從樣本去估計母群參數)

這裡有兩個非常重要的觀念要瞭解: 點估計(point estimation)與區間估計(interval estimation).

(A) 點估計: 點估計基本上就是一個數值(我們稱之點估計值，estimate)，他是我們對於母群參數的猜測。回到去敏感牙膏的例子，比方現在我要猜的是母群的平均值，我就告訴你我猜母群的平均使用後滿意度是70分。這個70分就是點估計值。

不過統計分析和算命不太一樣，當我說出這個估計值，我得要有所本才行。我是根據什麼說出70分這樣的猜測? 是根據我手上的樣本，還有，我所採用的估計式(estimator)，也就是我算出估計值的方法(公式)。拿平均值來說，因為我手上只有20位病患的資料，所以我採用的估計式就是「20位病患的平均滿意度」。而這個計算平均值的公式就是我用來估計母群的方法。

(B) 區間估計: 點估計雖然看起來很直觀，啊就是給你一個確切的答案(估計值)，但是它往往沒告訴我們太多東西。你說你根據樣本和估計式算出來點估計值，但是你沒告訴我這個估計的有多準確。當你講70分，啊真的就是完完全全70分? 我還想知道另外兩件事: (1)有沒有可能是69分? 有沒有可能是71分? (2)你有多大的信心可以說，母群參數是在某一個分數範圍以內?

解答上面兩個問題的方法就是區間估計。區間估計用一個區間(例如幾分到幾分)去估計母群參數，看看這個區間是否能包含母群參數。所以你看到區間估計會有兩個數字，分別是我們估計的上下區間(U/L)。區間估計一定會配合信心水準(confidence level)，例如95%的信心水準，這個信心水準表示「當我們反覆地做區間估計，做了很多很多次，有95%的個區間估計會包含母群參數」。所以區間估計比點估計提供我們更多資訊。它可以告訴我們一個猜測到底有多準(品質)，這個品質反應在兩方面: (1)區間的寬窄，如果越窄表示越準(accurate)，以及(2)估計的信心水準。

這裡要釐清一下，這個信心水準(例如95%)並不是告訴你「我現在給出的區間，95%的機率是正確的」。事實上它能夠「抓到」母群參數的狀況只有兩種: 包含母群參數或是沒有包含母群參數(也就是母群參數落在區間範圍外)，所以不是正確就是不正確，沒有所謂機率的問題。再來，這個信心水準也不是告訴你「母群參數是某個數值的機率」。例如估計平均值落在[20，40]與95%的信心水準，你不能說母群平均值有95%的機率=30，你只知道是在20~40的範圍內，但你不知道是哪個確切的值。

3. 區間估計與效果量(effect size，ES)

區間估計有一個很常見的應用，就是估計效果量(ES)。記得ES談的是變項改變的程度(例如服藥前服藥後體重改變多少公斤)。記得我們在樣本上算出來的，永遠只是屬於樣本的參數，但我們真正感興趣的是根據這樣本所猜測的，母群的參數。所以以減肥藥的研究來說，你看到實驗樣本體重減少20公斤，你要做的就是去估計母群減少多少公斤。如果用區間估計的方法，你就會得到一個區段，例如介於15到25公斤之間，以及這個估計的信心水準。

要做區間估計，和點估計一樣，可以從樣本和區間估計式(interval estimator)著手。這裡假定我們要估計的是平均數，區間估計式是

P(X – c ≤ μ ≤ X + c) = 0.95 (CL)

我們可以解讀成「母群平均值μ落在X - c ~ X + c這個範圍內的機率為0.95」。記得，區間估計值一定是伴隨著估計的信心水準。在樣本的分佈為常態分佈的前提下，經過推導我們可以得到

估計的上下界(U,L) = X ± Z_α * σ/ sqrt(n)

其中α=(1-CL)/2

這裡要注意的是U和L取決於(1)信心水準，(2)母群標準差，以及(3)樣本大小。信心水準越高，注意我們估計的準確度越低(U~L越寬)，樣本越大，估計的準確度越好。而母群標準差通常是未知的，所以我們以樣本標準差(S)代替，如果樣本標準差越大，估計的準確度也越低。

4. 再談標準誤(standard error，SE)

我們先前提過標準誤(SE)這個概念，定義為樣本統計量的標準差。標準誤告訴我們「拿樣本統計量代表母群統計量」，足以代表的信心有多大。

會不會有一種很熟的感覺? 怎麼感覺SE的作用和區間估計很類似? 也是去量化估計的準確度? 如果你會這樣想，那我就要恭喜你了，表示你掌握的SE的真正意涵。大家都知道SE的計算公式與標準差(standard deviation，SD)非常類似，也是用來量化資料離散程度的公式。但SE最重要的地方在於它計算的是有關「抽樣分布」的特徵。

你可能要先回想一下抽樣分布(sampling distribution)是什麼東西。當你講到抽樣分布的時候，考慮的是某一個統計量(例如平均值)的分布。例如我在母群中抽樣10個樣本，算出平均值。我反覆做這件事1000次，我就會得到「1000個樣本平均值」的分佈。請注意這1000個樣本平均值肯定有高有低，可能非常離散 – 為什麼有這樣的差別? 那就適因位隨機抽樣導致的誤差。因為是「隨機」抽樣，所以也許某次抽樣，你剛好抓到了母群中最高值的那幾個樣本，但也有可能下一次抽樣，你剛好抓到了母群中最低值得那幾個樣本，而這兩次抽樣所算出的樣本平均值就可能差很多了!

而我們說SE量化離散性，它量化的就是這個抽樣分布的離散性。回到上面1000個樣本平均值的例子，我們計算的就是平均值的SE，也就是SEM(SE of mean)。SEM越小,表示我們抽樣很都次，但每次算出來的樣本平均值都差不多。

p.s. 想像一下，有沒有可能SEM=0? 什麼樣的母群，會導致SEM=0?

回到一開始講點估計的概念: 我們用樣本平均值，來(點)估計母群平均值。而SE剛好告訴我們另一見很重要的資訊: SEM越小，表示反覆抽樣獲得的樣本平均值變化不大。所以SE其實是輔助我們瞭解點估計值的重要資訊。

5. 點估計，區間估計與SE的關係

我們再回想一下SEM的計算方法: SEM=σ/sqrt(n)。但是母群的標準差σ通常未知，所以我們以樣本的標準差S代替，也就是SEM=σ/sqrt(n) = S/sqrt(n)。

所以SEM受到兩個因素的影響: (1)樣本標準差越大，SEM越大，(2)樣本數越大，SEM越小。關於(1)其實蠻直觀的，因為我們要問的是樣本平均數的分布，而平均數是從樣本計算而來，如果樣本本身變異都很大，那所得的平均數自然就可能被一些極端值(outlier)拉著跑。(2)樣本數越大的時候，這些極端值的效果就容易被「抵消」，所以平均值就不會那麼容易浮動。

你是不是發現SEM的計算方式，其實和區間估計式很類似? 還有區間估計式中的X不是樣本平均值嗎? 那不就是我們的點估計值嗎? 所以到頭來區間估計式，其實就是點估計式加減一個誤差。如果今天我們以樣本平均值±SEM來當成區間估計，那麼根據區間估計式

估計的上下界(U,L) = X ± Z_α * σ/ sqrt(n)

= X ± Z_α * SEM

這裡Z_α =1, 查表得CL=68%

相當於我們找的是「在樣本平均值正負1個標準差的範圍內」，也就是68%的信心水準。因此SEM本身其實就是一種區間估計的表現，它告訴我們「在68%的信心水準下，樣本平均值-SEM ~ 樣本平均值+SEM這個區間會涵蓋母群的平均值」。

Google Sites

Report abuse