臨床研究中常見的多元回歸分析

臨床研究中常見的多元回歸分析

1. 多元回歸(multiple regression)分析是什麼? 有什麼好用的地方?

簡單地說多元回歸就是「簡單回歸」的加強版。首先，它是一種回歸分析技術，所以他的重點是「預測」。再來，簡單回歸中只有一個預測變項(predictor，regressor或explanatory variable)，而多元回歸中有一個以上的預測變項。

所以如果你的研究需要用到多元回歸，請記得你想做的事情一定和「預測」有關。例如，(A) 我們想知道哪些臨床危險因子的組合(每天抽煙幾包、嚼檳榔幾粒、刷牙幾次)可以準確預測牙周病的嚴重程度(牙周囊袋多少mm)，或是 (B) 我們想知道在這幾個臨床因子中，哪幾個對於預測牙周病嚴重程度特別有影響力。針對(A)這類的問題，我們可以採用一種「預測型」回歸分析的思路。針對後者(B)這類的問題，我們可以採用一種「解釋型」回歸分析的思路。

2. 解釋型回歸分析

先從後者講起。所謂「解釋」的意思就是說，我們想知道在很多預測變項中，哪些可以比較好地預測我們的被預測變項(通常也就是我們想探討的臨床問題，例如牙周病嚴重程度)。這裡的重點是，什麼叫做「比較好地預測」 - 這裡就要回到提到的一很重要的概念：每個預測變項都會配上一個回歸係數，這個係數代表了該變項改變時，對於被預測變項(Y)的影響(impact)有多大，所以我們可以視為是斜率的概念：回歸系數越偏離0表示越「斜」，越斜表示當這個變項(X)改變了一點點，被預測變項(Y)就會有很大的改變 – 這就是我們所謂「比較好地預測」的意涵。

不過在多元回歸的情況裡要注意的是，我們不會只有X這個預測變項，而是X₁、X₂、X₃…很多個。所以在這裡個別的回歸係數b₁、b₂、b₃，應該解釋成「當其他變項(X2，X₃)保持不變的前提下，X₁這個變項改變一單位時，Y會改變多少」。另外再回想一下,這裡提的回歸係數是非標準化的係數,也就是都有單位 – 所以你可以更明確地說，像是「每天多抽一包煙，會造成牙周囊袋增深多少mm」。這就是一個在臨床上，非常有用的預測。

話說回來，在解釋型回歸分析中,我們的目標是對不同的預測變項作比較。透過比較回歸系數b的大小，來瞭解哪些變項有「顯著的影響」。這裡「顯著的」三個字冒出來，就表示我們其實是做一個顯著性檢定 – 我們要看的是這個b值究竟有多大? 而比較的基準點就是b=0 – 我們可以想像成，就是斜率=0的狀況。先前的講義提過，這就代表X不管如何改變，Y都「紋風不動」，表示前者對後者一點影響力都沒有。

但除了看b – 0 (其實就等於b)這個值的大小，我們還要考慮另一個東西，就是我們對b值估計的標準誤。先前提過只要根據樣本來估計母群，不管我們計算哪一種統計值，這個統計值都只是對母群統計值的一種猜測 (例如我們計算樣本平均值，去猜母群的平均值多少)。標準誤就是反映這種猜測的精確性(precision)。所以當我們對b作顯著性檢定時，我們要看的是 (b – 0) / S_b，這裡的S_b就是回歸系數b的標準誤 (在SPSS的報表中，就會呈現這個非標準化回歸係數b與b的標準誤)。在樣本數小的時候，我們就用t分布來檢驗這個(b – 0) / S_b數值否達到統計顯著性。當我們對各個變項的回歸系數(b₁，b₂…)一一做這樣的檢定，我們就可以進一步瞭解，這些變項當中哪些能作比較好的預測，而哪些變項的預測效果不好(這裡的意思就是，其影響力無法達到統計上的顯著性)。

3. 預測型回歸分析

前面提到解釋型回歸分析，目的讓我們一一檢視每個變項的影響力，主要分析的目標就是每個變項各自的回歸係數。這裡就產生一個問題：如果已經知道某幾個變項「一點用都沒有」，那我們還需要用他們來做預測嗎? 既然沒有用，為什麼不從變項組合中剔除掉呢?

這正是接下來預測型回歸分析的重點：當我們要開始進行更準確地預測，我們就必須對原來最初的變項組合有所取捨。例如在解釋型回歸分析中影響力不夠顯著的變項，我們就可能會剔除 – 至於該採用怎樣的標準剔除(回歸系數t檢定p」0.05?)或是按照怎樣的順序去剔除，這些就是預測型回歸分析要考慮的重點。

另外預測型回歸分析要考慮的，已經不再是個別變項的影響力的大小 – 這主要是解釋型回歸分析的工作。當我們要做預測型回歸分析，我們要問的是所有這些(已經精挑細選後的)變項全部放在一起，能共同做出多好的預測。先前提過，這裡我們要考慮的就是coefficient of determination(R²)的大小。R²越大表示Y的總變異中，有多大的比例可以被回歸模型預測的結果來解釋。如果R²越小，表示Y的總變異中，還有很大一部分是無法為回歸模型所預測(或者說，模型的預測會「失準」)。所以簡單地說，我們希望這些變項組合能達到越大的R²越好，表示即使Y不斷變動(例如，有牙周囊袋很深，也有牙周囊袋很淺的病人)，都可以用我們選擇的這幾個變項組合加以解釋。

另一個與解釋型回歸分析不同的地方是，在預測型回歸分析中，我們考慮的統計顯著性就不是單一變項的b值大或小 – 也就是說，這時候去看個別b的t 檢定結果，其實沒太大意義。再次強調，我們要看的是整組變項組合的效果。我們這時候進行的是F檢定，主要是看兩件事的比值：SS_regression / SS_residual這個比值越大，表示整個變項組合的預測效果越好。為什麼? 在前面的講義中提到，SS_regression表示當我們加入這一群變項後，可以提供解釋多少的Y變異量(所以SS_regression越大越好)，而SS_residual就反應「失準」的部分 – 有多少Y變異量是我們加入預測變項後依然無法解釋的。這個比值越大(也就是F越大)，就代表整組變項的預測越有效。所以在預測型回歸分析中，最關鍵的是F的統計顯著性。這個F檢定達到顯著，我們就有信心說，這一群變項放在一起能做出好的預測。

Google Sites

Report abuse