Lektie til modulet:
Aktiviteter i modulet
Punktplot og graf
Punktplottet er de punkter i koordinatsystemet som vores data giver. Det er de "rigtige data"
Grafen er den bedste linje, som vores funktionsforskrift giver. Det er den matematiske model.
Mindste kvadraters metode
Klavs gennemgår med udgangspunkt i dette link, hvordan regression mere præcist foregår ved hjælp af “mindste kvadraters metode”: Hvordan kan Nspire beregne sig frem ti hvilken funktionsforskrift, der bedst efterligner de kendste datapunkter. Undersøg denne Geogebra-opgave om mindste kvadraters metode. Hvad er det mindste mulige samlede areal?
Residualer og Residualplot
Demo (modul 1) af residualer i residualplot
Hvordan vurderes kvaliteten af regressionen ud fra residualplottet?
Se billedet
Et rodet residualplot - et residualplot uden et mønster er tegn på, at den valgte regressionsmodel (fx lineær) er et godt valg for gregressionen
Et residualplot, der har et mønster / et system er tegn på, at en anden model måske er bedre.
Vurdering af residualplot
Uden mønster = godt valg af regressionsmodel
Vurdering af residualplot
Mønster (her er der et mønster (rød) = dårligt valg af regressionsmodel, måske en parabel eller en eksponentiel eller en potensfunktion passer bedre (grøn)
Forklaringsgraden R²
Klavs forklarer forklaringsgraden: Et let mål for hvor stor en del af y-værdiernes opførsel, som kan forklares af den matematiske model. Kaldet R2
Demo (modul 2) af punkter, linje og R2. Flyt punkterne.
Se forklaringsgraden i Nspire
Hvis forklaringsgraden er 0,71 så betyder det at 71% af udviklingen i den afhængige variabel kan forklares af den uafhængigevariabel. Jo tættere forklaringsgraden er på 1 jo bedre.
Opgave: Gæt forklaringsgrad
Kvalitet af model
Kig på grafen og punktplottet: I en god model ligger data meget tæt på den rette linje
Forklaringsgrad R²: R² skal være meget tæt på 1 - hvor tæt afhænger af situationen.
Residualplot: Data skal ligge spredt omkring x-aksen uden et mønster. Usystematiske afvigelser tyder på, at den rette linje er et godt valg for regressionsanalysen
Eksempler på bestemmelse af modellens kvalitet
Klavs gennemgår Relativ afvigelse
Her ses en lineær regression mellem for antal af Vildgæs f(x) ved en sø som funktion af antal år efter 2012 kaldet x.
Opgave:
I år 2018 (x=6) observeredes 155 vildgæs.
Hvor ståpr er den relative afvigelse af dette tal for modellens forudsigelse?
Løsning:
Af formel (95) nedenfor ses, at vi skal benytte to tal for at kunne beregne den relative forskel.
y-obs er den observerede værdi så y-obs = 155
y-model er den værdi vi får ifølge modellen. Dvs når x=6.
Derfor findes f(6)
y-model = f(6) = -12,6*6 + 223,33 = 147,73
Den relative afvigelse er så
y-obs - y-model 155 - 147,73
r = ---------------------------- = ------------------------ = 0.04921 = 4,92 %
y-model 147,73
Hvorfor er det vigtigt at forstå, at modeller kun er bedste bud på en virkelig udvikling og at de kan tage fejl?
Hvilke data benyttes til en regression
Se billedet herunder: Global lufttemperatur i årene 1998-2012. Hvad er din konklusion?
Se næste billede nederst: Global lufttemperatur i årene 1980-2012. Hvad er din konklusion?
Se billedet nederst: Global lufttemperatur i årene 1900-2012. Hvad er din konklusion?
Hvilke data benyttes i modellen?
Opgave
OPGAVE (20 min).
Se "Elkedel" på youtube (1:21)
Hvilke variable vil være relevante at indføre for at beskrive dette fænomen?
Hvilken er den afhængige variabel?
Er sammenhængen mellem variablene lineær?
Hvor lang tid tager det ifølge modellen for vandet at koge?
Bemærk at starttemperaturen var 20 grader.
BEMÆRK: Når der står "ifølge modellen" så betyder det, at i skal anvende den regneforskrift, som er I har fundet. Det er ikke nok at kigge på grafen.
Hvilke residualer er størst (svarende til hvilke datapunkter ligger længst fra modellens graf)? Og er de mistænkelige datapunkter?
Er det en god model?
Ifølge modellen – hvor lang tid skal vandet opvarmes fra de 20 grader for at nå 110 grader?
Hvad er rækkevidden for modellen?