資料分析3 - 再談統計檢定力與樣本數

[回到目錄]

再談統計檢定力與樣本數

1. 從decision-making觀點來看alpha與beta

傳統教課書上講解alpha與beta(即type I/II error)用樣本分布的方式來表示,兩個分部曲線重疊在一起,看久了會很煩。這次 我們這次換一個口味,從實務層面來思考: 當我們拿到一筆data,如何決定該拒絕或接受H0 (decision-making)來看。

首先看一個範例的decision-making表格:

上面每個方格裡代表次數(比方我們重複抽樣500次的結果)。下圖則是換算成機率:

現在先把焦點放在第一個表格。我們要先確定兩件事: (A) 從橫排來看(粗體),被分到拒絕H0或接受H0的次數(例如20/80)是我們決定的。如果今天我們調整decision criteria,那麼有一些原本會被拒絕的就會變成被接受了。所以這是我們可以控制的部分。(B) 從直排來看(灰色),到底H0實際上是對或錯的比例,卻不是我們決定的。這可能得根據過去的研究或是我們主觀判定(prior)。

複習: 回憶一下alpha,beta與power的定義,如何計算出它們的客觀機率。

上面提到H0實際上是對的或錯的,這個不是我們決定的(但我們可以估計它),這個比例稱為prior odds。在上述的例子中,prior odds (Pr)= 20/40=0.5(H0實際上是對的/Total)。通常我們不太會去注意這個prior odds,如果我們用傳統的兩個樣本分布圖重疊去思考,甚至看不出來prior odds的重要性。但它其實非常重要 – 因為我們需要這個估計來計算PPV(positive predictive value)。PPV的計算非常簡單,就是TP/(TP+FP),也就是當我拒絕H0很得意洋洋的時候,到底這個「拒絕」有多大的比例是H0是錯的。PPV越高表示我的分析越有效(只要我說拒絕,H0就真的錯)。反過來PPV越低表示當我說拒絕時,很有可能它實際上是對的。(也就是提高了type I error)。

請注意PPV值的變化是獨立於alpha和beta,當alpha與beta都被控制住的時候,PPV的變化隨著Pr改變。Pr越高則PPV越高。這表示即使有兩組資料,它們的alpha與beta相等 – PPV也可能不一樣(視乎Pr多大)。 也許這會讓人有一點吃驚: 我們通常只注意alpha,頂多beta,的結果怎樣怎樣,但這還沒有告訴我們全貌。要回答「我的決定(拒絕或假設)確實代表H0是對或錯」的程度有多高,我們就必須計算PPV。

2. 關於alpha與beta的重要的概念

(1) 這些所謂alphabeta,都是一種條件機率(上次講過啦~) 比方alpha=0.05,我們都知道代表某種false positive(不該有的卻發現有)。這句話是代表下列哪種意思? (A)虛無假設成立的機率。(B)得到這樣一組研究數據(例如兩組有差異)的機率。(C)在虛無假設成立的前提下(例如兩組無差異),得到這樣一組研究數據(例如兩組有差異)的機率。答案是(C)。也就是P(D|H0)。同理,beta這個數字也代表一種條件機率,就是「當虛無假設並不成立的情況下,我們並未得到這樣一組研究數據(例如兩組有差異)的機率」。

複習: 這裡也再強調一次,P(D|H0) 不等於P(H1|D),也就是我們就算得到alpha,我們也不知道「當獲得這樣一組研究數據時,能佐證我們的實驗假設(H1)成立的機率」(也就是P(H1|D))。

(2) alpha和beta互相結抗。一個變大另外一個變小,就像皮老闆和謝老闆那樣水火不容。因為定義上power=1-beta,所以alpha和power會一起成長。但這個消長關係還受到另外兩個因素影響: N和ES(以簡單的2-sample t-test來說,我們可以當成是兩組平均值的差異)。請看下圖(這個我畫了很久~)

我們現在比較「自由行星同盟」與「帝國」的提督指揮能力,雙方各挑出十位提督(好啦,我知道現在沒人在看「銀英傳」,我自己講得爽好了)

這是最基本的情況,先不考慮N和ES,我們會看到當criteria改變時(就是中間充滿霸氣的虛線,z=1.96),alpha和beta都會改變。Criteria不管往左移或往右移,alpha和beta一定互為消長。

現在我們固定criteria,然後改變sample的成分 – 比方同盟這邊出現了許多名將,指揮力平均值一下子拉高很多。你會發現alpha並不會改變(因為criteria不變),但是ES增加且beta下降(也就是power提高)。

再來,如果我們同樣維持criteria也就是alpha不變,但是增加同盟這邊的樣本數,得到的樣本均值分布就會變「瘦」。現在注意到beta也會下降(也就是power提高)。

所以以上的結論告訴我們: 你要提高power的方法其實很多,第一個就是犧牲alpha(圖A),但是那樣好像太委屈了(畢竟type I error值得注意),第二個就是我們真的觀察到很大的ES,但這不是我們能控制的。另一個可能性就是提高樣本數N – 這是在不犧牲alpha的情況下提高power的手段~ 所以我們希望「小一點的alpha」還要「多一點的power」,並非魚與熊掌不能兼得 – 解決方法就是再辛苦一點,多一點N!

3. 關於低power與小樣本數的省思: Button et al., 2013 Nat Rev Neurosci

在這篇很有趣的文章裡,作者開宗明義就講了許多研究的power都太低,樣本數也太小。到底這會造成什麼影響? 首先我們要先了解當alpha固定的情況下,樣本數越小power也越低。我們可以利用2.(2)的圖來解釋 – 當alpha固定(也就是criteria不變)的時候,樣本數越小我們取得的樣本平均值分部就會變得更「胖」,也就是樣本平均值的變異越大。

複習:樣本數越小,當我們抽樣時不小心抽到極端值,這個極端值就更容易影響樣本平均) 。所以前一次可能抽到的樣本平均值很小,下一次突然變大 – 整個分布就變寬了。

請注意2.(2)的圖A和C,你會發現當分布變寬的時候,power值(就是criteria左邊的面積相對整個分布曲線的面積所佔的比例)其實是下降的。所以在alpha固定的前提下,低power與小樣本是一體兩面。

作者主要歸納以下幾點:

4. 喔喔喔~~能不能畢業在此一舉

講到這裡可能會讓人覺得有點可怕: 老師,萬一我一開始研究的樣本數定錯了,或是算到最後發現我研究結果統計檢定力不夠,是不是就不能畢業了? 是不是從此1加1就不會等於2? 啊是不是賽亞人從此就滅亡了?

沒那麼嚴重啦! 事實上很多所有這些統計的東東都只是一種「你自己詮釋data時該有多大信心」的指標,到底一個研究的結果有沒有用或好不好,往往在於我們的詮釋。但這些統計指標卻是指引我們(或更嚴格地講,去限制我們)做詮釋的客觀參考。舉個例子,今天如果我檢定兩組的差異是alpha=0.04999 < 0/05,我是否就認為我們發現的結果很棒? 可以藉此大作文章? 也許我們要很謹慎,因為還有5%的type I error機率! 但也許也可以大作文章喔 - 假定先前所有研究的結果都在alpha=0.5(慘),但我們的研究protocol發現是alpha=0.05,這已經表示我們的研究能大大降低type I error,不是也很值得高興?

其實更進一步講,許多推論統計有關的統計值都是加工再加工的成品,往往已經距離我們測得的觀察值的原始風貌有一段距離,所以在行為科學或生理學領域裡,往往學者更重視的是對觀察值的直接描述 – 例如觀察值的分布曲線,極值的判定等等。跳過這些(看似無聊)的敘述統計就馬上開始動SPSS – 不管你是忙著算p value或是power,都是一件很危險的事(而且還讓自己活得更有壓力更緊張哩)!