實驗設計3 - 假設檢定基本觀念

[回到目錄]

Four very important points about ‘hypothesis testing’

1. 假設檢定其實不是在檢定「我的假設」!

「我的假設」就是我們在paper最常看到的關鍵句,例如「我假設武林正道人士放的屁比魔界人士的屁更臭」。所以我們做了一堆統計檢定,就是提出證據來支持上面那句話。

如果我說這是錯的,可能你會大吃一驚。事實上,依照我們現在主流的假設檢定主流概念(null hypothesis significance test,NHST) ,我們確實真的不是在檢定上面那句話「我的假設」。我們檢定的是實際上針對的是那句話的反面,也就是我們常說的虛無假設(這裡就是正道的屁和魔界的屁一樣臭) 。

用機率數學來表示: 設D是我們觀察到的結果,H是我們的假設為真。我們其實想了解的是P(H|D),也就是「當觀察到我們手上的結果,假設為真的機率」。但假設檢定的P value告訴我們的卻是P(D|H),也就是「如果假設為真,那麼會看到我們手上這樣結果的機率」。這裡的H指的就是虛無假設。亦即,假設檢定告訴我們的是「如果虛無假設為真,那麼會看到我們這樣結果的機率」 – 到這裡你想一下,這個P(D|H0)不就是P value的意義? 也就是我們所為type I error發生的機率。所以我們計算出來的P value從來不會告訴所們那個我們想知道的假設成立的機率,它只告訴我們有關虛無假設的事。

所以一定要記得,假設檢定根本不是針對我們真正想了解的H,它針對的是虛無假設。

2. 假設檢定就是算出P value,P value告訴我我的假設是否正確?

很多人看到P value < 0.05就很高興,因為「這表是我的假設是正確的」。但剛剛說了,你只能說「證據不支持虛無假設」。到此為止。

那我怎麼從「證據不支持虛無假設」推到「證據支持我的假設」?不是每篇paper都這樣講嗎?沒錯,這裡的關鍵在於那個動詞「推到」 – 這純粹是一個邏輯遊戲。請先思考下面的例子:

(1)小叮噹中餐不是去吃麥當勞就是去吃肯德基。

(2)大雄發現最近小叮噹中餐很少去吃麥當勞,

(3)所以大雄推論: 小叮噹中餐常常去吃肯德基。

如果我們(2-3)看下來,不會覺得大雄的推論太奇怪 – 因為我們知道(1),小叮噹不是去麥當勞就是去肯德基。但如果今天我們把(1)拿掉,只有(2)和(3),你就會覺得大雄在鬼扯 – 啊小叮噹不去麥當勞,搞不好他去7-11或是Pizza Hut啊~ 誰說他就一定去肯德基?

現在如果你把(3)想成是我們假設的事 ,(2)是虛無假設 – 大雄的推論就是(2)的可能性很低(P<0.05!),所以(3)比較有可能。但這一切的前題是(1) – 如果(1)這件事不成立,那麼(2)到(3)的推論就變成了鬼扯,不是嗎?

3. 我們現在主流的假設檢定概念是NHST

Fisher的看法則不同。Fisher和Pearson都同意假設檢定針對的應該是虛無假設,然而Fisher認為既然P value是一種機率(虛無假設成立下得到觀察結果的機率),那它的大小正可以反映出一種量的變化,這個「量」就說是測量「虛無假設到底有多好」(反過來就是「我原本的假設到底錯得多離譜」)。但Pearson認為這樣的做法太主觀(多好?)

請注意,這個觀念上的歧異反映在我們寫paper時 – 按照嚴謹的NHST方法,也就是採取Pearson的”先判後審”的精神,我們應該在分析資料報告結果之前,就先說明我們認定的significance level是多少。通常在是Methods裡面的Statistical Analysis段落的最後,在報告結果前就要先聲明(先判)。然後到了Results部分計算出結果後,再說明是否具有顯著性(後審).

註: 但請仔細想一想Pearson的看法其實很驚悚! 比方我現在定alpha=0.05,結果P=0.0499拒絕H0,P=0.0501卻接受H0 – 這樣一下就天堂地獄之分了。但對Fisher而言0.0499和0.0501 真的沒太大差別。所以Fisher的看法也有他的道理.

4. P value不代表差異程度(至少在NHST)

如果你能明白3.所提的Pearson與Fisher兩家對假設點定的看法的差異,那你應該很快能理解這一點: 在NHST中,P value其實只是一個讓我們做出決策(H)的參考值,我們的重點式在H是否被接受,不在P value。P value要嘛比alpha大(接受H),要嘛比alpha小(拒絕H)。所以假設檢定只會告訴我關於H的情況。

但你可能看到許多paper會說: 比較甲組和乙組的身高差距P<0.05,比較丙組和丁組身高差距P<0.005,所以「甲組-乙組的差距,比丙組-丁組的差距,來得小」 – 這在概念上是不正確的。你只能說「甲組-乙組的差距」和「丙組-丁組的差距」都具有顯著性。但顯著性的標準在丙組-丁組是更為嚴苛。請注意從0.05和0.005,你其實不能了解之間的差距變化多少(如果想了解這一點,就必須參考其它的統計值,如效力量effect size)

簡言之,在NHST裡假設檢定的結果就是二分法的類別: 要嘛就是接受H要嘛就是拒絕H。你不能去多說什麼.