Hvis man har et datamateriale, der viser samhørende værdier mellem to variable kan man undersøge, om der er en funktionssammenhæng mellem dem, altså om den ene afhænger af den anden, ved at indtegne punkterne i et koordinatsystem:
Hvis de indtegnede punkter ligger tilfældigt fordelt i en sky i koordinatsystemet, må man konkludere, at der slet ikke er en sammenhæng mellem de to variable. Hvis de danner et mønster, dvs. hvis de følger en kurve, er der tilsyneladende en sammenhæng mellem de to variable. Hvis denne kurve danner en næsten ret linje, kan vi konkludere, at der er tale om en lineær sammenhæng.
Tilfældige punkter: Punkter danner kurve: Punkter danner ret linie:
Ingen sammenhæng. Sammenhæng, ikke lineær. Tilnærmelsesvis lineær sammenhæng.
I et forsøg måler man, hvordan temperaturen i en kogekedel stiger, efter den er tændt. Resultaterne vises i denne tabel:
Indtegner vi data i et koordinatsystem, får vi:
Det ses tydeligt, at punkterne med god tilnærmelse ligger på en ret linje, som vi kan tegne, så den passer bedst til punkterne:
Der er altså en lineær sammenhæng mellem den tid, kogekedlen har været tændt, x, og den temperatur vandet har opnået i kedlen, y. Vi kan se, at den rette linje skærer y-aksen i tallet 21, og det er derfor tallet b i regneforskriften for den lineære sammenhæng.
Altså er: b = 21
For at finde hældningskoefficienten må vi se på ændringer af de variable. I tidsrummet mellem 0 sek. og 40 sek. stiger temperaturen fra 21oC til 51oC.
Vi kender altså starttiden x1 = 0 og sluttiden x2 = 40
og ligeledes kender vi de tilhørende y-værdier y1 = 21 og y2 = 51:
Vi bestemmer så hældningen a ud fra vores formel:
Derfor er regneforskriften for sammenhængen mellem tid, x, og temperatur, y:
y = 0,75 x + 21.
Hvis vi vil vide, hvad disse tal siger om vandet i kogekedlen, kan vi se, at bangiver temperaturen i vandet ved starten af målingerne. Vandet havde en temperatur på 21oC. Hældningskoefficienten a angiver, hvor meget temperaturen i vandet stiger, når tiden øges med 1 sek. Det fortæller, hvor hurtigt opvarmningen foregår, og i vores forsøg er det 0,75 grader pr. sekund.
b = 21oC
a = 0,75 grad/sek.
I mange matematikprogrammer til computer eller regneark (såsom Excel) kan man automatisk få tegnet den bedste rette linje, der passer med en række data. Dette kaldes for lineær regression.
De fleste CAS-værktøjer og regneark kan udføre lineær regression. Her kan du se, hvordan det gøres på værktøjet Geogebra:
Her er en praktisk øvelse med lineær regression
Du kan udføre lineær regression på alle de tabeller, som du har lyst til - også selv om der slet ikke er tale om en lineær sammenhæng. Når man arbejder med tal fra virkelige problemstillinger - statistiske opgørelser eller målinger - er der altid en tilfældig variation i værdierne, en usikkerhed. For at kunne vurdere, om en lineær sammenhæng er en god model, undersøger man afvigelserne i y-værdierne mellem den målte y-værdi og den y-værdi, som regresionsmodellen udregner. Dette kaldes for et residualplot. Her er to ting, man bør kigge efter. For det første kan man se på størrelsen af afvigelserne i forhold til selve y-værdien. Dette fortæller om hvor stor usikkerheden er i vores y-værdier fra tabellen. For det andet kan man undersøge om residualplottet består af punkter fordelt tilfældigt omkring x-aksen, eller om afvigelserne optræder systematiske. Hvis der optræder systematiske afvigelser er det tegn på, at sammenhængen ikke er lineær.
Eksempel: Københavns kommune
Her ses en tabel over indbyggertallet i Københavns kommune i perioden 2010 - 2017:
(Kilde: Statistikbanken - www.statistikbanken.dk)
Hvis vi indtegner punkterne i et koordinatsystem, hvor vi lader x være antal år efter 2010, får vi denne figur:
På figuren angiver x-værdierne antal år efter 2010 og y-værdierne indbyggertallet i Københavns kommune i 1000.
Udføres lineær regression får vi regneforskriften
y = 10 513x + 528 196
Den lineære graf se herunder:
Umiddelbart ser den rette linje ud til at ramme punkterne i koordinatsystemet godt.
For at de, hvor godt linjen passer udregnes for hver år forskellen mellem det observerede tal og det tal, modellen udregner.
Når vi afsætter forskellen for de forskellige x-værdier, får vi tegnet residualplottet:
Residualplottet viser nogen variation i forskellen, men der er ikke nogen systematisk forskel, så det tyder på, at en lineær model er meget passende. Den største forskel er på 833, og i forhold til befolkningstallet på 539 542, er det langt under 1% afvigelse. Så selv om residualplottet viser tilsyneladende stor afvigelse, skal du lige se på selve antallene og sammenligne med det faktiske antal.
Når man skal undersøge, om sammenhængen mellem to variable kan beskrives som en eksponentiel vækst kan man gøre det ved hjælp af regneark eller en matematikprogram på computer. Her kan man udnytte faciliteten ”tendenslinie” eller ” eksponentiel regression” og vælge eksponentiel vækst som mulighed.
Lad os se på et eksempel. Vi kaster 100 terninger, og efter hvert kast fjerner vi alle de terninger, der har vist en 6’er.
Resultatet ses i tabellen herunder:
Ved at indtaste tallene i vores CAS-værktøj, kan vi få tegnet denne graf:
Ved at prøve med en lineær tendenslinje ses, at der ikke er tale om lineær sammenhæng, fordi punkterne ikke danner en ret linje i koordinatsystemet, men afviger systematisk.
Vi kan dernæst prøve med eksponentiel tendenslinie:
Og straks ser vi en meget bedre overensstemmelse mellem punkterne og grafen. Så vi må konkludere, at antallet af terninger er eksponentielt aftagende. Vi kan også aflæse regneforskriften for funktionen:
y = 98,6995 · 0,83751 x
Herunder ser du regressionen udført i programmet Geogebra, og samtidigt kan du se residualplottene:
Lineær regression
Punktplot og bedste rette linje
Eksponentiel regression
Punktplot og bedste eksponentielle vækst:
Residualplot ved lineær model:
Residualplot ved eksponentiel model:
Allerede i punktplottet ser vi, at den lineære model ikke passer så godt på data. Residualplottet viser det mere tydeligt. Afvigelserne er ikke tilfældigt fordlet, men udviser tydelig systematik, og selve afvigelserne er forholdsvis store
Af punktplottet ser vi, at den eksponentielle model passer rimeligt godt med data. Residualplottet viser det endnu tydeligere, for afvigelserne er tilfældigt fordelt og de er ikke særligt store.
Hvis du har nogle konkrete data for en sammenhæng og skal finde det mønster, som de danner, kan du bruge regression. Først er her en oversigt over de tre funktionstyper: