Korrelaatiokerroin on matemaattisesti jokin luku väliltä [-1, 1]. Luku 1 vastaa täydellistä (lineaarista) riippuvuutta/korrelaatiota ja luku -1 täydellistä (lineaarista) käänteistä riippuvuutta.
Korrelaation tulkinnassa pitää olla varovainen. Sitä käytetään yleisesti sekä vahingossa että tahallaan väärin.
Korrelaatio ei kerro kausaliteetista (syy-seuraus -suhteesta) vielä yhtään mitään!
Korrelaatiokertoimen laskukaava on
eli siinä lasketaan jokaisesta arvoparista niiden poikkema kyseisen arvon (x tai y) keskiarvosta, kerrotaan nämä poikkeamat keskenään, ja summataan kaikki tulot yhteen. Tulos jaetaan arvojen keskihajontojen (s) tulolla ja lukuparien määrällä (n).
Juoksija vertaili vuotuisia harjoitusmääriään ja pääkilpailussaan saavuttamaansa loppuaikaa.
Näistä muodostui seuraava kuvio (mukana myös regressiosuora/trendiviiva).
Kuvion perusteella on melko selvää, että harjoituskilometrien määrä korreloi käänteisesti loppuaikaan (lisää kilsoja -> vähemmän aikaa).
Korrelaatiokerroin on -0,813 ja selitysaste 0,66. Tämän tulkitaan tarkoittavan, että kilometrimäärä ja loppuaika riippuvat toisistaan voimakkaasti ja harjoittelun kilometrimäärä selittää 66 % loppuajasta.
Ensin lasketaan ns. testimuuttuja t kaavalla
missä r on korrelaatiokerroin ja n on otoskoko.
[ kaava ]
Nyt p-arvo saadaan taulukkolaskentaohjelman kaavalla =tdist(t;n-2;2) tai (suomenkielisessä) Excelissä kaavalla =t.jakauma.2s(t;n-2).
Edellä saatiin korrelaatiokertoimeksi -0,81. Lasketaan vielä tämän p-arvo:
Nollahypoteesi olisi, että "harjoituskilometreillä ei ole merkitystä tulokseen". Aineiston perusteella tämän todennäköisyys (p) on kuitenkin vain 2,6 %, joten lenkillä kannattanee käydä edelleen.