【統計】

零相關不代表無關

張貼日期:Sep 01, 2020 10:10:49 AM

作者高竹嵐 副教授國立陽明交通大學統計研究所)

話說前幾天我朋友在網路上PO了一張照片,是她之前(不知何時)學統計時的筆記截圖。那段筆記是關於相關係數 r 的,其中包含這一段:

我當下看到的時候,心中只有一個聲音:

啊啊啊啊啊不要啊啊啊啊啊這件事情果然發生了啊啊啊啊啊~~~

會這樣吶喊是因為,我蠻清楚知道這不會是我朋友的問題,而是教我朋友的老師的問題。這個狀況,就有點像是小時候有些老師在教除法的時候,會直接講說:

「你們看到題目,就把比較大的數字除以比較小的數字就對了。」

這個說法考試多半可以拿個分數,但概念上並不正確,必然會發生像是:

2顆蘋果給4個人分,每個人得2顆。

這種奇怪的結果。而很遺憾地,這個狀況,在統計的教學上,真的發生太多,也發生太頻繁了。

因此,請容我在此解釋一下,零相關不代表無關的這件事。

首先,讓我們重溫一下什麼是相關係數,或者更正確的說,皮爾森的相關係數(Pearson Correlation)。假設我們想知道兩組數字是否存在「某種」關聯性,例如,人類的身高與體重之間的關係,為了研究這件事情,我們找來一群人,量量他們的身高與體重。假設我們找了一百個人來量,他們的身高(X)與體重(Y)畫圖得到的結果如下:

純粹舉例用的圖,超出這個範圍的人不要太哀傷。

上圖中的一個點代表某個人的身高 X 與體重 Y。就肉眼看起來,似乎 X 與 Y 之間,有一個正比的關係是「身高越高,體重基本上越重」,約莫可以用上圖中的藍色線來表示。但如大家所看到的,資料點也不是完全貼合在藍色線上,中間有一段誤差。

那麼,有沒有一個指標可以告訴我們,一組資料有多直線呢?

皮爾森相關係數給予我們這樣一個指標。它的公式如下:

覺得上面的式子很可怕?沒關係,讓我們先忽略公式,直接來看它的性質:

1. r 一定會介於 -1 到 1 之間。(有興趣的朋友,這個證明很簡單,大家可以自己嘗試一下。)

2. 如果 r=1,則 r 一定會是一條斜率為正的直線。例如下圖

3. 如果 r=-1,則 r 一定會是一條斜率為負的直線。例如此圖

在此請特別留意,在上面 r=1 跟 r=-1 的情況下,我們只知道斜率是正的或是負的,但我們不會知道斜率是多少。換言之,就算 r=1,也只會知道「身高增加,體重會增加」,但至於增加 1 cm 會增加 1 kg 還是 100 kg,這我們不會知道。所以就算知道 r=1,你也不能對你朋友說「我比你高 10 cm,所以我比你重 20 kg 很合理。」

好,所以我們知道 r=1 跟 r=-1 時會發生什麼事情,那 r=0 呢?

這就有趣了…以下幾個圖,都是 r=0:

咦等等等等,怎麼突然變的這麼亂七八糟?

其實這也很合理。你看喔,r 接近 1 表示接近正斜率的直線,r 接近 -1 表示接近負斜率的直線。

這麼一來,r=0,也就是 r 遠離 1 跟 -1,表示資料點會遠離正斜率或負斜率的直線。

但遠離正斜率與負斜率的直線,有千千百百萬萬種可能啊!它可能是一個水平線 (a)、一個鉛直線 (b),X 與 Y 可能無關 (c),但也有可能很有關 (d)。畢竟 (d) 裡頭我可是直接讓 Y 是 X 的二次函數啊,夠有關了吧!

所以,結論是:

l 相關係數是 1 或 -1,我們知道它一定是一條正斜率或負斜率的直線。

l 但如果相關係數是 0,我們只知道它不是一條正斜率或負斜率的直線。但除此之外,我們甚至連 X 與 Y 有沒有關係都不知道。

簡言之,零相關,不代表無關它只代表 X 與 Y 之間的關係,不會是一條正斜率或負斜率的關係,但世界上還有千千百百萬萬種關係。就像兩個人不是夫妻,但他們還是可以是夫夫、妻妻、伴侶、同居、前伴侶等各式各樣的關係。

備註:你可能注意到我之前強調是皮爾森的相關係數;是的,這表示還有其他的相關係數。舉例來說,如果我一點都不關心 X 與 Y 是不是呈現線性關係,我只在乎 X大,Y是不是也大,大多少沒差呢?

為了方便舉例,讓我們考慮以下這筆data:

這筆 data 的皮爾森相關係數大約是 0.7=70%,即使前 5 筆 data 中 X 與 Y 根本完全吻合,但第五筆的那1000000 讓它不是一條完美的直線,所以皮爾森相關係數不是 100%。

「可是可是可是明明 X 跟 Y 的大小就是完全的正相關,X 大 Y 就大,我我我我我好想要一個類似正比 100% 的指標啊啊啊啊~~」

有另一位斯皮爾曼(Spearman)老伯就想了個辦法:那我們就別考慮實際的數字大小了,我們來考慮排名怎麼樣?

概念是:如果 X 大 Y 也大,那 X 中排名第 1 應該要對到 Y 中排名第 1,X 中排名第 2 應該要對應 Y 中排名第 2,依此類推。

所以我們就來看看兩者排名的差距吧!斯皮爾曼於是定義了以下這個斯皮爾曼相關係數:

其中Rxi 是第 i 筆 data 裡的 X 在所有 X 中的排名,Ryi 是第 i 筆 data 裡的 Y 在所有 Y 中的排名。大家可以簡單計算一下,上面的 data 的斯皮爾曼相關係數,就真的會是 1=100% 了。

當然,就算斯皮爾曼相關係數是零,也還是不代表 X 跟 Y 之間沒關係。它也是代表 X 跟 Y 之間不是「X 大 Y 大」這樣的關係而已,至於是不是其他關係,天曉得。

總而言之,零相關不代表無關。那麼另一個問題是如果有相關,我們能夠說什麼...

「因為身高與體重呈正相關,所以我比你高表示我比你重?」

「因為家裡藏書量與孩子成績呈正相關,所以家長拼命多買書可以讓孩子成績變好?」

「因為高中三年體適能與學測成績呈正相關,所以上健身房加強體適能可以讓學測成績變好?」

讀者可以想一下,這樣說有沒有哪裡怪怪的?