Når computeren bestemmer den bedste rette linje og dermed a-værdien og b-værdien i forskriften f(x) = ax + b, anvendes residualerne, som blev introduceret i afsnit 3.10. Man opstiller følgende størrelse
SSE = r12 + r22 + r32 + ... + rn2
hvor n angiver det sidste målepunkt. SSE står for Sum of Squared Errors, som kan oversættes til summen af kvadrerede residualer.
Figur 3.10.1.1 viser en grafisk repræsentation af SSE. Da hver residual, ri , er den lodrette afstand mellem det enkelte målepunkt og den bedste rette linje, angiver kvadratet på residualet, ri2 , arealet af de illustrerede kvadrater.
Den bedste rette linje består af den a-værdi og den b-værdi, der giver den mindst mulige værdi af SSE. Dvs. at den bedste rette linje beregnes og tegnes sådan, at det samlede areal af alle kvadrater på figur 3.10.1.1 bliver så lille som muligt. Metoden til at gøre SSE så lille som muligt kaldes mindste kvadraters metode. Man lærer om detaljerne i mindste kvadraters, hvis man vælger matematik på A-niveau.
Figur 3.10.1.1. Den bedste rette linje, hvor de sorte streger angiver residualerne. Kvadratet på residualerne angives ved arealet af kvadraterne.
SSE bruges til beregning af det tal, som man kalder for forklaringsgraden eller determinationskoefficienten. Forklaringsgraden har symbolet R2.
Tallet R2 giver et procenttal for, hvor tæt målepunkterne i gennemsnit ligger på den bedste rette linje. Hvis R2 = 1 = 100% ligger alle målepunkter præcis på den bedste rette linje. Hvis R2 = 0 = 0% er der på ingen måde en lineær sammenhæng mellem de to variable.
Man skal være opmærksom på, at R2 alene ikke kan bruges som et argument for en sammenhæng mellem to variable. Det gælder i alle naturvidenskabelige og samfundsvidenskabelige sammenhænge. Der findes ingen kriterier for, hvad man forstår som en acceptabel R2-værdi. I nogle situationer kan R2 = 0,65 være tilfredsstillende, mens R2 = 0,95 i andre situationer kan være den ønskede grænse. Talværdien af R2 er i sig selv ikke tilstrækkelig til at vurdere kvaliteten af en matematisk model for sammenhængen mellem to variable. Faktisk kan man i et eksperiment manipulere sig frem til en stor R2-værdi. Hvis man vælger sine x-værdier, så de spreder sig ud over et stort måleinterval, vil man automatisk få en større R2-værdi, end hvis man vælger sine x-værdier mere samlet.
Anscombes datasæt
Et klassisk eksempel på problematikken med R2 kommer fra statistikeren Francis Anscombe. I figur 3.10.1.2 ses fire datasæt, som gennem en lineær regression får den samme bedste rette linje og samme R2-værdi. Den bedste rette linje er givet ved
y = 0,5x + 3
mens
R2 = 0,667
Figur 3.10.1.2a.
Figur 3.10.1.2b.
Figur 3.10.1.2c.
Figur 3.10.1.2d.
Det ses tydeligt, at de fire rette linjer ikke beskriver måledata lige godt.
I figur 3.10.1.2a er der en lineær sammenhæng mellem målepunkterne, selv om R2-værdien kun er 0,667.
I figur 3.10.1.2b er der en åbenlys ikke-lineær sammenhæng. Her burde man prøve med en polynomiel regression af orden 2, da det ser ud til at punkterne ligger på en parabel.
I figur 3.10.1.2c ligger alle målepunkter præcist på en ret linje på nær et punkt, som er det man kalder for en outlier. Her burde man fjerne outlieren fra datasættet og lave en ny lineær regression.
I figur 3.10.1.2d giver det slet ikke mening at arbejde med en lineær funktion, da alle måledata ligger på en lodret linje.
Vores konklusion er, at R2-værdien aldrig kan bruges alene. Man skal altid visualisere med punktplot af måledata. Man bør huske sig mantraet "Man skal tegne før man må regne".