資料分析2 - 決定樣本數

[回到目錄]

Four fundamental concepts you need to know about hypothesis testing

1. 首先介紹魔界四大天王

通常我們最注意的是N與Alpha,也就是樣本數與第一型誤差。注意這裡的Alpha也就是P value (按照NHST的定義),亦即虛無假設成立下觀察到結果的機率(也有人稱為false positive的機率)。這和所謂”significance level”的值不太一樣。Alpha是根據結果計算出來的,而significance level則是事先確定的.

相對而言,Power和ES較少人提到,但我們會發現越來越多的研究會著重在這兩點上。事實上如果我們想計算這四者中的任何一個,都必須用到其它三者 – 也就是知道N,Alpha,Power,我就們就可計算出ES。同理,如果知道了N,Alpha與ES,就能計算出Power。我們接下去會看到它們之間的關係非常密切!

2. 事前(a priori)決定樣本數

前面提到這四大天王只要確定其中任三個,就能計算出第四個 – 所以如果今天我們想確定研究樣本到底要取多少,我們只要定下Alpha,Power與ES就可以算出來了。至於其計算其實非常簡單,現在最普遍的方法是使用軟體(如G Power),簡單到你唯一要做的事就是把上述的四大天王整理出來。既然樣本數N尚未決定,你只要告訴軟體其它三天王長什麼樣子,軟體就會自動幫你計算。

不過請注意一件事: 當我們說決定樣本數多少,並不是真的去找一個完美的數字,而是去了解”合理的樣本數的範圍”。這個觀念非常重要,因為科學研究和營造業不同 – 我們不是按照這個訂出來的樣本數去做研究,好像收不到這些樣本就很害怕研究做不成,然後一旦收到這個數目就可以回家睡大覺 –不是這樣的! 我們真正要了解的是一個樣本數的範圍,並了解當樣本數變化時,對於其它因素的影響(見5.) 這才是一種正確的態度。

3. 我哪裡找三大天王(Alpha, Power, ES)的參考值?

這時候你可能會遇到一個問題: 可是實驗還沒開始做啊! 我哪知道Alpha,Power,ES是多少? 其實Alpha和Power都有”公定價”可以參考,也就是大家公認的合理範圍。通常Alpha會設在0.05而Power則定在0.8。記得Power = 1- β,因此Power=0.8也就等於第二型誤差(β)=0.2。配合第一型誤差(Alpha)=0.05,這組設定一般來說是可以接受的。

所以現在就差了ES。但是等一下,ES是根據統計方法而異,這個東西顯然就沒有”公定價”可以參考,那該怎麼辦? 一般來講還是有兩種方法可以解決。首先就是(依然)根據慣例,按照低中高三種層級來選取ES。比方如果以Cohen’s d來代表”平均值間的差異量”,我們可能直接訂在0.5(中度ES)或0.8(高度ES)。(參考Ferguson,2009,An Effect Size Primer: A Guide for Clinicians and Researchers) 。

但這並不是最好的方法。如果今天我們已經有同質性較高的study可以參考(例如研究同樣疾病的研究,甚至我們自己先前的研究結果),那麼可以直接參考這些研究。

4. 事後(post-hoc)分析Power

在1.中提到了現在許多研究不僅重視Alpha,也重視Power。當結果都收集完成以後,還會再根據觀察的資料做power analysis並報告統計檢定的Power。最近這種做事後power analysis的呼聲越來越高,原因就在於假設檢定一定會產生type I與type II error,但過去以報告P value為主的結果呈現方式,根本只提到了type I error,壓根不把type II error放在眼裡嘛!

乍聽之下好像type II error因為不重要,所以不需要再做power analysis去呈現它。這與其說是一種不對的觀念不如說是一種風氣 – 因為在臨床上,我們總是關注有差異的東西,所以會盯著type I error,不希望「明明沒事當成有事(差異)」。但請注意,如果今天我們研究的目標就是要確定”兩件事沒有差異”,那麼type II error反而變得更重要! 因為這時候我們最怕的就是「其實是有事(差異)的,但是我沒看出來」,也就是power不夠。所以在這種主題的研究中,事後power analysis是非常重要的。

5. 四大天王彼此間的關係 – 了解樣本數與研究結果的說服力

我們可以觀察到以下幾件事:

(A) N越大會讓你的(1)Power越大和(2)Alpha越小(記得type I error與type II error是永遠的死對頭)。所以一般而言「增加樣本數」會是解決Alpha與Power的萬靈丹。(但這不永遠正確,詳情以後再說) 。

(B) Alpha v. ES的關係需特別釐清。Alpha是「差異無中生有的機率」,而ES則是被發現的差異量 – 所以我們可以解釋成”越大的差異,會是無中生有的機率越低”。這也提醒我們一件事: ES太小時,我們就要擔心這樣的”發現”很可能是type I error的結果(Alpha變高) 。

(C) 這裡比較奇怪的是N v. ES,樣本數越大怎麼ES越小? 這似乎不合乎我們的直覺。當Power和Alpha都固定時,N越大會讓ES下降 – 這句話意味著「同樣嚴苛的條件下(控制住type I/II error),樣本數越大,會讓我有把握宣稱發現了更小的差異」。當樣本數很少的時候,除非這個ES(例如兩組平均差異)很大,我們才有把握說它真的存在。如果我們想要把事情講得更”精確”,對即變是很小的ES,我們也有把握說它真的存在 – 那我們就必須增加樣本數。

回到上面提到的,我們說「決定樣本數」其實是指決定一個合理的樣本數範圍。理想上,我們應該了解的是這個樣本數N的變化,對Alpha,Power和ES的影響。比方樣本數N在某個範圍以上,我們可以得到多大的Power,如果N小到一個程度,可能就達不到我們(至少希望)能達到的Power。從這個角度去了解樣本數,會讓我們在實際進行實驗時更有彈性。