臨床研究中常見的多元回歸分析

[回到目錄]

臨床研究中常見的多元回歸分析

1. 多元回歸(multiple regression)分析是什麼? 有什麼好用的地方?

簡單地說多元回歸就是「簡單回歸」的加強版。首先,它是一種回歸分析技術,所以他的重點是「預測」。再來,簡單回歸中只有一個預測變項(predictor,regressor或explanatory variable),而多元回歸中有一個以上的預測變項。

所以如果你的研究需要用到多元回歸,請記得你想做的事情一定和「預測」有關。例如,(A) 我們想知道哪些臨床危險因子的組合(每天抽煙幾包、嚼檳榔幾粒、刷牙幾次)可以準確預測牙周病的嚴重程度(牙周囊袋多少mm),或是 (B) 我們想知道在這幾個臨床因子中,哪幾個對於預測牙周病嚴重程度特別有影響力。針對(A)這類的問題,我們可以採用一種「預測型」回歸分析的思路。針對後者(B)這類的問題,我們可以採用一種「解釋型」回歸分析的思路。

2. 解釋型回歸分析

先從後者講起。所謂「解釋」的意思就是說,我們想知道在很多預測變項中,哪些可以比較好地預測我們的被預測變項(通常也就是我們想探討的臨床問題,例如牙周病嚴重程度)。這裡的重點是,什麼叫做「比較好地預測」 - 這裡就要回到提到的一很重要的概念:每個預測變項都會配上一個回歸係數,這個係數代表了該變項改變時,對於被預測變項(Y)的影響(impact)有多大,所以我們可以視為是斜率的概念:回歸系數越偏離0表示越「斜」,越斜表示當這個變項(X)改變了一點點,被預測變項(Y)就會有很大的改變 – 這就是我們所謂「比較好地預測」的意涵。

不過在多元回歸的情況裡要注意的是,我們不會只有X這個預測變項,而是X1、X2、X3…很多個。所以在這裡個別的回歸係數b1、b2、b3,應該解釋成「當其他變項(X2,X3)保持不變的前提下,X1這個變項改變一單位時,Y會改變多少」。另外再回想一下,這裡提的回歸係數是非標準化的係數,也就是都有單位 – 所以你可以更明確地說,像是「每天多抽一包煙,會造成牙周囊袋增深多少mm」。這就是一個在臨床上,非常有用的預測。

話說回來,在解釋型回歸分析中,我們的目標是對 不同的預測變項作比較。透過比較回歸系數b的大小,來瞭解哪些變項有「顯著的影響」。這裡「顯著的」三個字冒出來,就表示我們其實是做一個 顯著性檢定 – 我們要看的是這個b值究竟有多大? 而比較的基準點就是b=0 – 我們可以想像成,就是斜率=0的狀況。先前的講義提過,這就代表X不管如何改變,Y都「紋風不動」,表示前者對後者一點影響力都沒有。

但除了看b – 0 (其實就等於b)這個值的大小,我們還要考慮另一個東西,就是我們對b值估計的標準誤。先前提過只要根據樣本來估計母群,不管我們計算哪一種統計值,這個統計值都只是對母群統計值的一種猜測 (例如我們計算樣本平均值,去猜母群的平均值多少)。標準誤就是反映這種猜測的精確性(precision)。所以當我們對b作顯著性檢定時,我們要看的是 (b – 0) / Sb,這裡的Sb就是回歸系數b的標準誤 (在SPSS的報表中,就會呈現這個非標準化回歸係數b與b的標準誤)。在樣本數小的時候,我們就用t分布來檢驗這個(b – 0) / Sb數值否達到統計顯著性。當我們對各個變項的回歸系數(b1,b2…)一一做這樣的檢定,我們就可以進一步瞭解,這些變項當中哪些能作比較好的預測,而哪些變項的預測效果不好(這裡的意思就是,其影響力無法達到統計上的顯著性)。

3. 預測型回歸分析

前面提到解釋型回歸分析,目的讓我們一一檢視每個變項的影響力,主要分析的目標就是每個變項各自的回歸係數。這裡就產生一個問題:如果已經知道某幾個變項「一點用都沒有」,那我們還需要用他們來做預測嗎? 既然沒有用,為什麼不從變項組合中剔除掉呢?

這正是接下來預測型回歸分析的重點:當我們要開始進行更準確地預測,我們就必須對原來最初的變項組合有所取捨。例如在解釋型回歸分析中影響力不夠顯著的變項,我們就可能會剔除 – 至於該採用怎樣的標準剔除(回歸系數t檢定p」0.05?)或是按照怎樣的順序去剔除,這些就是預測型回歸分析要考慮的重點。

另外預測型回歸分析要考慮的,已經不再是個別變項的影響力的大小 – 這主要是解釋型回歸分析的工作。當我們要做預測型回歸分析,我們要問的是所有這些(已經精挑細選後的)變項全部放在一起,能共同做出多好的預測。先前提過,這裡我們要考慮的就是coefficient of determination(R2)的大小。R2越大表示Y的總變異中,有多大的比例可以被回歸模型預測的結果來解釋。如果R2越小,表示Y的總變異中,還有很大一部分是無法為回歸模型所預測(或者說,模型的預測會「失準」)。所以簡單地說,我們希望這些變項組合能達到越大的R2越好,表示即使Y不斷變動(例如,有牙周囊袋很深,也有牙周囊袋很淺的病人),都可以用 我們選擇的這幾個變項組合加以解釋。

另一個與解釋型回歸分析不同的地方是,在預測型回歸分析中,我們考慮的統計顯著性就不是單一變項的b值大或小 – 也就是說,這時候去看個別b的t 檢定結果,其實沒太大意義。再次強調,我們要看的是整組變項組合的效果。我們這時候進行的是F檢定,主要是看兩件事的比值:SSregression / SSresidual這個比值越大,表示整個變項組合的預測效果越好。為什麼? 在前面的講義中提到,SSregression表示當我們加入這一群變項後,可以提供解釋多少的Y變異量(所以SSregression越大越好),而SSresidual就反應「失準」的部分 – 有多少Y變異量是我們加入預測變項後依然無法解釋的。這個比值越大(也就是F越大),就代表整組變項的預測越有效。所以在預測型回歸分析中,最關鍵的是F的統計顯著性。這個F檢定達到顯著,我們就有信心說,這一群變項放在一起能做出好的預測。