Ofte har man en række data med samhørende værdier for to variable, x og y, f.eks. opstillet i en tabel. For at undersøge, om der er en matematisk sammenhæng mellem de to variable, kan man tegne et xy-plot af disse.
Et xy-plot tegnes i et koordinatsystem, der består af en vandret og en lodret talakse. Vi kalder den vandrette talakse for x-aksen eller førsteaksen. Tilsvarende kalder vi den lodrette talakse for y-aksen eller andenaksen. De to akser tegnes som en pil, hvor pilespidsen peger i den retning hvor tallene vokser.
De to akser opdeler koordinatsystemet i fire områder, som kaldes kvadranter. De fire kvadranter nummereres som vist på figur 2.4.1.
Figur 2.4.1. Et koordinatsystem.
Da de to talakser er uendeligt lange, viser man kun et passende udsnit af koordinatsystemet. Et passende udsnit er selvfølgelig et, der indeholder alle de x- og y-værdier man arbejder med. Men man behøver ikke at kunne se lige meget af hver talakse, og afstanden mellem tallene på x-aksen behøver ikke at være lige så lang som afstanden mellem tallene på y-aksen.
Et xy-plot opbygges ved at indsætte punkter, der består af de x- og y-værdier, som hænger sammen. Et punkt angives som en parentes rundt om to tal, der er adskilt med et komma eller et semikolon. Det første tal er x-værdien og det andet tal er y-værdien. Nogle gange navngives punktet med et stort bogstav foran parentesen. F.eks. kan punktet P angives som:
(x , y) eller (x ; y)
P(x , y) eller P(x ; y)
P = (x , y) eller P = (x ; y)
I et xy-plot vil man hurtigt kunne se, om der er en sammenhæng, eller om værdierne af de variable varierer på tilfældig måde. Hvis de indtegnede punkter i xy-plottet ligger omkring en kurve, er der stor sandsynlighed for at der er en sammenhæng, hvorimod hvis punkterne danner en ”sky” af punkter i koordinatsystemer, er der ingen sammenhæng. Det vises i følgende eksempel.
Eksempel 2.4.1 - Buspassagerer
I tabellen i figur 2.4.2a er der en opgørelse over, hvor længe forskellige buspassagerer har ventet på bussen 1A i København, hvor længe deres tur har varet, og hvor lang en strækning de har kørt med bussen.
Figur 2.4.2a. Ventetid, køretid og rejseafstand for nogle buspassagerer.
Figur 2.4.2b. Bybus 1A.
Både ventetid ved stoppestedet og afstanden man skal køre i bus er variable, men der er selvfølgelig ingen sammenhæng mellem disse to variable. Det ses også i figur 2.4.3, hvor punkterne ligger tilfældigt fordelt i koordinatsystemet.
Derimod vil man forvente, at der er en sammenhæng mellem afstand og tid, når man sidder i bussen. Det ses i figur 2.4.4, hvor der er en forholdsvis pæn systematik i måden hvorpå punkterne ligger.
Figur 2.4.3 xy-plot over ventetid og afstand. Der ses ingen sammenhæng.
Figur 2.4.4. xy-plot over afstand og rejsetid. Der ses en sammenhæng.
Når man skal finde et mønster i et datasæt, betyder det, at man skal finde den type sammenhæng, der bedst beskriver data. Derfor har vi brug for at beskrive forskellige typer af sammenhænge og deres karakteristiske egenskaber. En sammenhæng mellem to variable beskrives mest hensigtsmæssigt ved en formel, der angiver sammenhængen. Formlen findes lettest ved at benytte det vi kalder for regression, som beskrives herunder.
I det følgende beskrives de enkelte trin man skal igennem for at kunne undersøge om der er en sammenhæng mellem variable, og i så fald hvordan man finder formlen der beskriver sammenhængen matematisk. Formlen kalder man for en matematisk model, og man siger at man laver en regression på data for at finde den matematiske model. Metoden beskrives vha. variablene rejsetid og afstand.
Indtastning af dataserier i regneark
Det anbefales at indskrive de to variable som to kolonner i et regneark. Bemærk at tallene ikke behøves at blive indskrevet i en voksende rækkefølge. Husk at holde styr på hvilket tegn du skal anvende som komma i decimaltal, det afhænger nemlig af det værktøjsprogram du benytter. Typisk vil det være sådan at værktøjsprogrammet placerer tal i højre side af cellerne. Så hvis dine tal bliver placeret i venstre side af cellerne, har du nok anvendt det forkerte tegn. Anvendes GeoGebra, som vist i figur 2.4.5, skal man bruge et punktum.
Figur 2.4.5. Data i regneark.
Punktplot
Indsæt data i et punktplot. Nogle værktøjsprogrammer benytter måske et lidt andet navn end punktplot; Punktdiagram, xy-plot eller xy-diagram betyder det samme. Måden hvorpå man laver punktplottet afhænger af værktøjsprogrammet. Figur 2.4.6 viser hvordan punktplottet kunne se ud.
Figur 2.4.6. Et punktplot over data.
Valg af matematisk model
Vælg den matematiske model der tegner en kurve, som bedst passer til punkterne. Måden hvorpå man gør det afhænger også af værktøjsprogrammet. Det man i første omgang kigger efter er, hvorledes punkterne fordeler sig om den kurve der tegnes. Punkterne skal fordele sig jævnt omkring kurven uden en systematik i om de ligger over og under kurven.
Nedenfor ses, at modellen givet ved den lige linje i figur 2.4.7 passer bedre til punkterne end modellen givet ved den krumme linje i figur 2.4.8. Det skyldes at det synes tilfældigt om punkterne ligger over eller under kurven i figur 2.4.7, mens der er en klar systematik i hvordan punkterne ligger fordelt om kurven i figur 2.4.8. Her ligger alle de midterste punkter nemlig over kurven, mens de yderste punkter ligger under kurven.
Figur 2.4.7. En god model.
Figur 2.4.8. En dårlig model.
Figur 2.4.9. En helt forkert model.
Man skal huske at benytte en matematisk model, som er i overensstemmelse med den virkelighed man forsøger at beskrive. F.eks. kan man få værktøjsprogrammet til at tegne kurver meget præcist gennem datapunkterne, som det er vist i figur 2.4.9. Men modellen giver ikke mening, hvis vi f.eks. forsøger at anvende den på køreture der er under 1 km. Her ser vi nemlig at rejsetiden falder, jo længere man kører. Modellen viser noget tilsvarende ved ture over 7 km.
Formel for matematisk model
Når man har fundet den bedste matematiske model, skal man have fundet en formel for den kurve der er blevet tegnet. Måden hvorpå man finder formlen afhænger at værktøjsprogrammet. I dette eksempel viser det sig at formlen for den bedste matematiske model er
y = 4,25 · x + 1,49
Regneforskrift for matematisk model
Ofte vil man gerne tydeliggøre at variablen y afhænger af variablen x. Dette kan man gøre ved at erstatte y med symbolet f(x) i den matematiske model.
Så hvis y = f(x) kan formlen skrives som
f(x) = 4,25 · x + 1,49
Symbolet f(x) skal udtales "f af x". Symbolet f(x) kaldes en regneforskrift, og symbolet viser, at man skal kende en x-værdi, hvis man vil beregne en f-værdi. f-værdien kalder man også for funktionsværdien.
Konklusion
Vi konkluderer at den bedste matematiske model til at beskrive sammenhængen mellem de to variable; afstand og rejsetid, er
y = 4,25 · x + 1,49
hvor y angiver rejsetiden (målt i minutter) og x angiver afstanden (målt i km).
Vi kan også udtrykke det på følgende måde:
Funktionen f, der beskriver sammenhængen mellem afstanden og rejsetiden, har følgende regneforskrift
f(x) = 4,25 · x + 1,49
hvor f(x) angiver rejsetiden (målt i minutter) og x angiver afstanden (målt i km).
Anvendelse af regneforskrift
Når man har en computer til rådighed, er det smart at anvende regneforskrifter, fordi vi herved kan få computeren til at huske formlen og regne med den. For at gemme regneforskriften over rejsetidens afhængighed af afstanden i computeren defineres funktionen
I WordMat skrives i ligningsfelt: f(x) := 4,25 · x + 1,49
I GeoGebra skrives i inputfeltet: f(x) = 4,25 · x + 1,49
Hvis man vil beregne, hvor lang tid det tager at rejse 5 km, erstattes x med 5 i regneforskriften, så der står følgende udtryk, som skal beregnes f(5).
I WordMat skrives i nyt ligningsfelt: f(5) hvorefter der trykkes Alt + B.
I GeoGebra skrives i CAS-værktøjet: f(5) hvorefter der trykkes på ikonet " = ".
Computeren beregner at f(5) = 22,74 hvilket betyder, at det tager 22,74 minutter at rejse 5 km med bussen.
Hvis man vil beregne, hvor langt man kan rejse i løbet af 16 minutter, erstattes 4,25 · x + 1,49 med 16 i regneforskriften, så der står følgende ligning, som skal løses f(x) = 16.
I WordMat skrives i nyt ligningsfelt: f(x) = 16 hvorefter der trykkes Alt + L.
I GeoGebra skrives i CAS-værktøjet: f(x) = 16 hvorefter der trykkes på ikonet " x = ".
Computeren beregner at x = 3,4 hvilket betyder, at man i løbet af 16 minutter kan rejse 3,4 km med bussen.
Videovejledning
I afsnit 2.6 kan du se videovejledninger til regression vha. GeoGebra.