Hvis et talmateriale ønskes undersøgt for en sammenhæng variablene imellem kan et plot af data give en idé om, hvorvidt punkterne ligger på en ret linje, hvorefter den lineære funktion, der beskriver denne sammenhæng kan bestemmes.
For at få en idé om et datasæt udvikler sig som en lineær model, er det altid en god idé at lave et xy-plot. Variablen y kaldes den afhængige variabel, og variablen x kaldes den uafhængige variabel.
I xy-plot er illustreret sammenhængen mellem stigningen i arbejdsløsheden x og stigningen i uligheden y.
En god lineær regression er kendetegnet ved et plot,
hvor datapunkterne har små og tilfældige variationer omkring regressionslinjen.
1. Åbn datafil
2. Vælg Data
3. Vælg Dataanalyse
4. Vælg Regression
5. Tryk OK
6. Marker input for Y-område
7. Markér input for X-område
8. Tryk OK
9. Resuméoutput fremkommer
Når lineær regression benyttes til modellering er det væsentligt at vurdere kvaliteten af regressionen.
For at kunne vurdere den lineære sammenhæng kræves et sammenligningsgrundlag, som kunne være ingen lineær sammenhæng/en tilfældig sammenhæng, altså at sammenhængen mellem de to variable er tilfældigt omkring en vandret linje (med hældningskoefficienten 0).
For at vurdere kvaliteten af den lineære model kan følgende udregnes:
· determinationskoefficienten - som dog er præget af det enkelte fags tradition
· p-værdi for hældningskoefficienten
· konfidensinterval for hældningskoefficienten
· residualplot
Ovenstående 4 bullets vil blive beskrevet nedenfor.
Determinationskoefficienten
Som et mål for styrken af regressionslinjen, kan determinationskoefficienten/forklaringsgraden R2 bestemmes. Dette tal ligger mellem 0 og 1, og er et udtryk for, hvor godt regressionslinjen passer med plottet af punkter. Ligger punkterne perfekt på linjen gælder, at R2=1, og hvis punkter på ingen måde kan beskrives ved den lineære funktion, er R2=0, hvilket ville betyde, at der ingen indicier er for en lineær sammenhæng mellem de to variable, der i så fald ville være lineært uafhængige.
Hvis R2=1 kan vi konkludere, at der er en fin matematisk sammenhæng mellem de to variable; men vi kan ikke vide, om der er en årsagssammenhæng/ kausal sammenhæng. Andre fag skal bidrage til afgørelse af årsagssammenhæng. Forskellige videnskaber og fag bruger og fortolker R2 forskelligt.
Kort udtrykt, så angiver R2 den procentdel af datapunkternes variation, der kan forklares af modellen.
Når forklaringsgraden R2 er stor, siger man også, at der er en høj korrelation mellem de to variable x og y. Det betyder, at der er en stor overensstemmelse mellem den måde x og y varierer på, der gør det muligt at forudsige den ene variabel, når man kender den anden.
Af output, vist nedenfor kan aflæses, at R2=0,2454 hvilket betyder, at den lineære model for sammenhængen mellem de to variable ikke kan forklare 1-0,2454 =0,7546 = 75,46% af variationen i datasættet. Sagt på en anden måde, så angiver forklaringsgraden, at 24,51% af variationen i den afhængige variabel (y: stigning i ulighed) kan forklares med variationen i den uafhængige variabel (x: stigning i arbejdsløshed).
Determinationskoefficienten R2 er markeret med blåt.
Konfidensinterval for hældningskoefficienten
At lave et skøn over den ukendte regressionslinje svarer til at finde et estimat for og . I matematik angiver notationen (som læses: a hat), at der er tale om et estimat, et skøn over den sande a- værdi, som er ukendt. Alene ud fra er det ikke muligt at sige noget som helst om, hvorvidt hældningen af den sande regressionslinje er signifikant forskellig fra 0. Det er afgørende, hvor stor usikkerhed, der er på . Et udtryk for usikkerheden kan bestemmes vha. Excel, hvor et konfidensinterval for hældningskoefficienten kan bestemmes og bruges til at undersøge, om a = 0.
95% konfidensintervallet bestemmes i Excel - markeret med blåt
95% konfidensintervallet for hældningskoefficienten er ] 0,0398 ; 0,3508[ . Dette betyder, at hældningskoefficienten med 95% sikkerhed ligger i dette interval. Da tallet 0 ikke ligger indenfor konfidensintervallet, kan det konkluderes, at der er en lineær sammenhæng.
Hvis tallet 0 er indeholdt i et 95%-konfidensinterval kan det konkluderes, at en lineær model ikke er velegnet til beskrivelse af sammenhængen mellem data.
p-værdi for hældningskoefficienten
Såfremt hældningskoefficienten var lig 0 ville alle x-værdier blive ganget med 0 () og dermed ikke påvirke y-værdierne. Dermed ville konklusionen være, at der ikke er nogen lineær sammenhæng.
Det er altså interessant at teste, om hældningen er signifikant forskellig fra 0.
I ovenstående er p-værdien markeret med gul.
Da p-værdien er 1,63% som er markant under testniveauet/signifikansniveauet på 5%; er der statistisk grund til at tvivle på ingen lineær sammenhæng. Dette betyder, at der er grund til at tro, at der er en matematisk lineær sammenhæng, og at den lineære regressionslinje er i stand til at forklare en del af variationen i den afhængige variabel.
Residualplot
Forskellen mellem en observeret og en forventet y-værdi kaldes et residual. Dets numeriske værdi er lig med den lodrette afstand fra punktet til regressionslinjen.
Et residualplot er et punktplot, der består af x-værdier fra de oprindelige rådata, og hvor y-værdierne er residualerne. Residualplottet bruges til at undersøge, om der er en systematik i rådatas afvigelse fra modellens forudsætninger. Residualer kan vise en dybereliggende tendens i data.
En god lineær regression er kendetegnet ved et residualplot,
hvor punkterne har små og tilfældige variationer omkring x-aksen.
I EXCEL:
Vælg ’Data Analysis’– ’Regression’
Vælg y-kolonnne og x-kolonne
Vælg residualer, residualplot