Dette afsnit følger op afsnit 2.4, hvor vi så på sammenhænge mellem variable. Hvis man har et datamateriale, der viser samhørende værdier mellem to variable kan man undersøge, om der er en funktionssammenhæng mellem dem, altså om den ene afhænger af den anden, ved at indtegne punkterne i et koordinatsystem. Hvis de indtegnede punkter ligger tilfældigt fordelt i en sky i koordinatsystemet som i figur 3.10.1a, må man konkludere, at der slet ikke er en sammenhæng mellem de to variable. Hvis de danner et mønster, dvs. hvis de følger en kurve som i figur 3.10.1b, er der tilsyneladende en sammenhæng mellem de to variable. Hvis denne kurve danner en næsten ret linje som i figur 3.10.1c, kan vi konkludere, at der er tale om en lineær sammenhæng.
Figur 3.10.1a. Tilfældige punkter. Ingen sammenhæng.
Figur 3.10.1b. Punkter danner en kurve. Sammenhæng, ikke lineær.
Figur 3.10.1c. Punkter danner en kurve. Tilnærmelsesvis lineær sammenhæng.
Ud over at lave regression kan man også lave et såkaldt residualplot eller et residualdiagram til afgøre om den valgte matematiske model er god. Vi demonstrerer residualplottet med følgende eksempel.
I et forsøg måler man, hvordan temperaturen i en elkedel stiger, efter den er tændt. Resultaterne vises i tabellen i figur 3.10.2.
Figur 3.10.2. Måledata.
I øverste del af figur 3.10.3 ses en lineær regression. Det ses, at punkterne med god tilnærmelse ligger på en ret linje, som vi også kalder den bedste rette linje.
Forskriften for den bedste rette linje aflæses til
f(x) = 0,76x + 20,92
I nederste del af figur 3.10.3 ses residualplottet. Residual betyder "det der er til overs". Et residualplot viser den lodrette afstand mellem hvert enkelt punkt i diagrammet og den bedste rette linje.
Residualplottet viser f.eks., at det første målepunkt ligger en anelse over den bedste rette linje, mens det andet målepunkt knapt 1 grad over den bedste rette linje. Tilsvarende ligger det tredje målepunkt ca. 1 grad under den bedste rette linje.
Vi kan beregne de enkelte residualer med følgende formel
ri = yi - f(xi) = yi - (a · xi + b) = yi - a · xi - b
hvor i angiver nummeret af datapunktet.
Figur 3.10.3. Lineær regression og residualplot.
Residualet for første datapunkt:
r1 = y1 - f(x1) = 21 - 0,76 · 0 - 20,92 = 0,08
Residualet for andet datapunkt:
r2 = y2 - f(x2) = 33 - 0,76 · 15 - 20,92 = 0,68
Residualet for tredje datapunkt:
r3 = y3 - f(x3) = 42 - 0,76 · 29 - 20,92 = -0,96
For at den lineære model er god, skal datapunkterne i residualplottet ligge tæt på og jævnt fordelt omkring den vandrette linje uden systematiske afvigelser. Det vurderer vi er tilfældet i dette eksempel.
Den overordnede konklusion er, at sammenhængen mellem tiden en elkedel er tændt og temperaturen vandet i elkedlen med god tilnærmelse er givet ved funktionen
f(x) = 0,76x + 20,92
hvor x angiver tiden (målt i sekunder) og f er temperaturen (målt i grader celsius).
Tallet 20,92 angiver, at vandets temperatur til tiden nul er 20,92 °C.
Tallet 0,76 angiver, at vandets temperatur stiger med 0,76 °C hvert sekund.