資料分析1 - 抽樣分佈與估計

[回到目錄]

抽樣分佈與估計

1. 重點就是在一個「猜」字

每次聽到同學們說:「喔喔喔我要開始跑統計了...」,「電腦算出來結果是...」,「我的得到的結果不太好耶...」,我就忍不住想提醒同學 – 你剛剛講的「跑」、「算」、「得到」這些動詞,其實都應該改成猜。

好啦,如果有人覺得猜這個字很不學術,那就說「估計」(estimate)好了。但講嘴巴講估計,你還是在做「猜」這件事。重點不在於到底是猜還是估計,還是亂猜或是亂估計...。重點是你到底在猜什麼?

比方某同學找了20位用過去敏感牙膏的病人,問他們用了去敏感牙膏後的經驗。他想知道的是什麼?

(1) 這20位用過去敏感牙膏病人的經驗。

(2) 所有「用過去敏感牙膏病人」的經驗。

如果他想問的是(1),那麼這個研究就非常簡單了,他只要把所有20個人的滿意度或是敏感改善程度做一個表格秀出來就好了。這裡不需要任何「猜」的工作。但另一方面,如果他想問的是(2),那麼他就必須要猜 – 他要利用現在已經有的20位病患的資料,去「猜」所有這類型病患的經驗如何。比方說,他得根據20位病患的平均使用後滿意度,去猜或估計所有這些病患的平均使用後滿意度。

也就是說,用從樣本獲得的參數去猜(估計)想母群的參數

上面講的這件事(過程)我們稱為「推論」,這件事是整個統計學的核心。

p.s. 你可能會想,那假使我去調查「所有用去過敏牙膏病人」的經驗,一個都不少,把這些人通通抓來調查,那(2)不就還原到(1)的情況? 確實如此啊! 但問題是你可能沒有那麼多時間與金錢做這件事...,還有,母群的個數有沒有可能是無限的?

2. 怎麼猜? (學術語言: 怎樣從樣本去估計母群參數)

這裡有兩個非常重要的觀念要瞭解: 點估計(point estimation)與區間估計(interval estimation).

(A) 點估計: 點估計基本上就是一個數值(我們稱之點估計值,estimate),他是我們對於母群參數的猜測。回到去敏感牙膏的例子,比方現在我要猜的是母群的平均值,我就告訴你我猜母群的平均使用後滿意度是70分。這個70分就是點估計值。

不過統計分析和算命不太一樣,當我說出這個估計值,我得要有所本才行。我是根據什麼說出70分這樣的猜測? 是根據我手上的樣本,還有,我所採用的估計式(estimator),也就是我算出估計值的方法(公式)。拿平均值來說,因為我手上只有20位病患的資料,所以我採用的估計式就是「20位病患的平均滿意度」。而這個計算平均值的公式就是我用來估計母群的方法。

(B) 區間估計: 點估計雖然看起來很直觀,啊就是給你一個確切的答案(估計值),但是它往往沒告訴我們太多東西。你說你根據樣本和估計式算出來點估計值,但是你沒告訴我這個估計的有多準確。當你講70分,啊真的就是完完全全70分? 我還想知道另外兩件事: (1)有沒有可能是69分? 有沒有可能是71分? (2)你有多大的信心可以說,母群參數是在某一個分數範圍以內?

解答上面兩個問題的方法就是區間估計。區間估計用一個區間(例如幾分到幾分)去估計母群參數,看看這個區間是否能包含母群參數。所以你看到區間估計會有兩個數字,分別是我們估計的上下區間(U/L)。區間估計一定會配合信心水準(confidence level),例如95%的信心水準,這個信心水準表示「當我們反覆地做區間估計,做了很多很多次,有95%的個區間估計會包含母群參數」。所以區間估計比點估計提供我們更多資訊。它可以告訴我們一個猜測到底有多準(品質),這個品質反應在兩方面: (1)區間的寬窄,如果越窄表示越準(accurate),以及(2)估計的信心水準。

這裡要釐清一下,這個信心水準(例如95%)並不是告訴你「我現在給出的區間,95%的機率是正確的」。事實上它能夠「抓到」母群參數的狀況只有兩種: 包含母群參數或是沒有包含母群參數(也就是母群參數落在區間範圍外),所以不是正確就是不正確,沒有所謂機率的問題。再來,這個信心水準也不是告訴你「母群參數是某個數值的機率」。例如估計平均值落在[20,40]與95%的信心水準,你不能說母群平均值有95%的機率=30,你只知道是在20~40的範圍內,但你不知道是哪個確切的值。

3. 區間估計與效果量(effect size,ES)

區間估計有一個很常見的應用,就是估計效果量(ES)。記得ES談的是變項改變的程度(例如服藥前服藥後體重改變多少公斤)。記得我們在樣本上算出來的,永遠只是屬於樣本的參數,但我們真正感興趣的是根據這樣本所猜測的,母群的參數。所以以減肥藥的研究來說,你看到實驗樣本體重減少20公斤,你要做的就是去估計母群減少多少公斤。如果用區間估計的方法,你就會得到一個區段,例如介於15到25公斤之間,以及這個估計的信心水準。

要做區間估計,和點估計一樣,可以從樣本和區間估計式(interval estimator)著手。這裡假定我們要估計的是平均數,區間估計式是

P(X – c ≤ μ ≤ X + c) = 0.95 (CL)

我們可以解讀成「母群平均值μ落在X - c ~ X + c這個範圍內的機率為0.95」。記得,區間估計值一定是伴隨著估計的信心水準。在樣本的分佈為常態分佈的前提下,經過推導我們可以得到

估計的上下界(U,L) = X ± Zα * σ/ sqrt(n)

其中α=(1-CL)/2

這裡要注意的是U和L取決於(1)信心水準,(2)母群標準差,以及(3)樣本大小。信心水準越高,注意我們估計的準確度越低(U~L越寬),樣本越大,估計的準確度越好。而母群標準差通常是未知的,所以我們以樣本標準差(S)代替,如果樣本標準差越大,估計的準確度也越低。

4. 再談標準誤(standard error,SE)

我們先前提過標準誤(SE)這個概念,定義為樣本統計量的標準差。標準誤告訴我們「拿樣本統計量代表母群統計量」,足以代表的信心有多大。

會不會有一種很熟的感覺? 怎麼感覺SE的作用和區間估計很類似? 也是去量化估計的準確度? 如果你會這樣想,那我就要恭喜你了,表示你掌握的SE的真正意涵。大家都知道SE的計算公式與標準差(standard deviation,SD)非常類似,也是用來量化資料離散程度的公式。但SE最重要的地方在於它計算的是有關「抽樣分布」的特徵。

你可能要先回想一下抽樣分布(sampling distribution)是什麼東西。當你講到抽樣分布的時候,考慮的是某一個統計量(例如平均值)的分布。例如我在母群中抽樣10個樣本,算出平均值。我反覆做這件事1000次,我就會得到「1000個樣本平均值」的分佈。請注意這1000個樣本平均值肯定有高有低,可能非常離散 – 為什麼有這樣的差別? 那就適因位隨機抽樣導致的誤差。因為是「隨機」抽樣,所以也許某次抽樣,你剛好抓到了母群中最高值的那幾個樣本,但也有可能下一次抽樣,你剛好抓到了母群中最低值得那幾個樣本,而這兩次抽樣所算出的樣本平均值就可能差很多了!

而我們說SE量化離散性,它量化的就是這個抽樣分布的離散性。回到上面1000個樣本平均值的例子,我們計算的就是平均值的SE,也就是SEM(SE of mean)。SEM越小,表示我們抽樣很都次,但每次算出來的樣本平均值都差不多。

p.s. 想像一下,有沒有可能SEM=0? 什麼樣的母群,會導致SEM=0?

回到一開始講點估計的概念: 我們用樣本平均值,來(點)估計母群平均值。而SE剛好告訴我們另一見很重要的資訊: SEM越小,表示反覆抽樣獲得的樣本平均值變化不大。所以SE其實是輔助我們瞭解點估計值的重要資訊。

5. 點估計,區間估計與SE的關係

我們再回想一下SEM的計算方法: SEM=σ/sqrt(n)。但是母群的標準差σ通常未知,所以我們以樣本的標準差S代替,也就是SEM=σ/sqrt(n) = S/sqrt(n)。

所以SEM受到兩個因素的影響: (1)樣本標準差越大,SEM越大,(2)樣本數越大,SEM越小。關於(1)其實蠻直觀的,因為我們要問的是樣本平均數的分布,而平均數是從樣本計算而來,如果樣本本身變異都很大,那所得的平均數自然就可能被一些極端值(outlier)拉著跑。(2)樣本數越大的時候,這些極端值的效果就容易被「抵消」,所以平均值就不會那麼容易浮動。

你是不是發現SEM的計算方式,其實和區間估計式很類似? 還有區間估計式中的X不是樣本平均值嗎? 那不就是我們的點估計值嗎? 所以到頭來區間估計式,其實就是點估計式加減一個誤差。如果今天我們以樣本平均值±SEM來當成區間估計,那麼根據區間估計式

估計的上下界(U,L) = X ± Zα * σ/ sqrt(n)

= X ± Zα * SEM

這裡Zα =1, 查表得CL=68%

相當於我們找的是「在樣本平均值正負1個標準差的範圍內」,也就是68%的信心水準。因此SEM本身其實就是一種區間估計的表現,它告訴我們「在68%的信心水準下,樣本平均值-SEM ~ 樣本平均值+SEM這個區間會涵蓋母群的平均值」。