Regressionsanalyse er en metode man bruger til at undersøge sammenhængen mellem en uafhængig variabel x og en afhængig variabel y. Sammenhængen mellem variablene beskrives vha. en regressionsligning. I regressionsligningen indgår der udover variablene nogle konstanter, som kaldes regressionsparametre. Regressionsanalysens mål er at finde det bedste bud på værdien af regressionsparametrene ved at lave beregninger på baggrund af et datasæt.
I kapitel 3 arbejdede vi med lineær regression, der handler om at bestemme det bedste bud på værdien af a og b, hvis sammenhængen mellem x og y skal beskrives ved ligningen y = a∙x + b. Men man kan også lave regression på baggrund af andre matematiske modeller, hvilket f.eks. kunne være andengradspolynomier.
Man skal som minimum have tre kendte punkter i sit datasæt for at lave andengradsregression (også kaldt kvadratisk regression). De kendte punkter indtastes i et regneark, hvorefter andengradsregressionen vælges. Hvordan dette laves i GeoGebra, vises lidt længere nede på siden.
Hvis man ikke har et datasæt at lave andengradsregression efter, kan man i GeoGebra fremskaffe et datasæt ved at indsætte punkter langs en kurve. Metoden man skal følge beskrives nedenfor.
Til sidst beskrives der lidt om residualspredningen.
Figur 7.4.1 viser en buegang på bygningen Casa Milà, som står i Barcelona og som er skabt af den catalonske arkitekt Gaudi. Man kan få den indskydelse, at undersiden af buegangens overdækning er lavet som en parabel.
For at undersøge om bygningen indeholder en matematisk hemmelighed vil vi lave en andengradsregression vha. GeoGebra. Herunder bliver de enkelte skridt præsenteret.
Figur 7.4.1. Følger buegangens overdækning en parabel?
Indsæt billede
Det letteste er at lave et simpel skærmudklip af buegangen og gemme det i udklipsholderen.
I GeoGebra 5 kan udklippet indsættes via "Rediger >> Indsæt billede fra >> Udklipsholder".
I GeoGebra 6 kan udklippet indsættes via "Rediger >> Indsæt".
Vha. værktøjerne Flyt og Flyt tegnefladen kan udklippet placeres hvor det ønskes. Det viser sig at være en god ide, hvis udklippet placeres et lille stykke over x-aksen, som figur 7.4.2 viser.
Figur 7.4.2. Et billede indsættes som et skærmudklip.
Indsæt punkter på billedet
Vha. værktøjet Punkt indsættes en række punkter, der følger undersiden af buegangens overdækning. Punkternes koordinater kan ses i Algebravinduet.
På figur 7.4.3 er punkterne indsat. Bemærk at punkterne A og B i udklippets nederste hjørner er blevet skjult via Algebravinduet, så man ikke kommer til at medtage dem i det efterfølgende.
Figur 7.4.3. Punkter indsættes.
Opret liste
Vha. værktøjet Opret liste trækkes der en ramme uden om de indsatte punkter C til I. Figur 7.4.4 viser hvor værktøjet findes.
Bemærk at rammen, der trækkes uden om punkterne, skal påbegyndes ude på tegnefladen. Man kan ikke påbegynde rammen, hvis cursoren befinder sig ovenpå udklippet.
Listen med punkterne indsættes automatisk i Algebravinduet. På figur 7.4.5 ses nederst, at listen l1 består af punkterne C til I.
For overskuelighedens skyld omdøbes l1 til liste1. I GeoGebra 5 omdøbes der ved at højreklikke på listen og vælge Egenskaber, mens der i GeoGebra 6 bare kan klikkes på navnet. Liste1 indeholder altså koordinatsættene til de punkter, som ligger på kurven.
I det efterfølgende beskrives to metoder, som man kan lave regression med i GeoGebra.
Figur 7.4.4. Værktøjet Opret liste.
Figur 7.4.5. Den oprettede liste l1.
Udfør andengradsregression
For at udføre andengradsregressionen benyttes FitPoly-kommandoen. I GeoGebra 5 anvendes Input-feltet, mens Algebravinduet anvendes i GeoGebra 6.
I FitPoly-kommandoen indsættes liste1 som <Liste med punkter> og 2 som <Grad>, da der her henvises til graden af polynomiet.
I figur 7.4.7 ses, at GeoGebra har angivet regressionsligningen ved forskriften f(x), mens figur 7.4.8 viser, hvordan grafen for f passer med punkterne. Det ser ud til, at undersiden af buens overdækning godt kan beskrives med en parabel.
Figur 7.4.6. FitPoly-kommandoen. "Fit" henviser til "at tilpasse", mens "Poly" henviser til "polynomium".
Figur 7.4.7. Ved indsættelse i FitPoly-kommandoen fås regressionsligningen.
Figur 7.4.8. Parablen sammen med de indsatte punkter.
Indsæt residualplot
Vi anvender ResidualPlot-kommandoen for at beregne hvor langt datapunkterne ligger fra regressionsmodellen. Kommandoen ses i figur 7.4.9.
I ResidualPlot-kommandoen indsættes liste1 som <Liste af Punkter> og f(x) som <Funktion>, da der her henvises til regressionsmodellen. Figur 7.4.10 viser, at der dannes en ny dataliste, som igen for overskueligheden skyld er omdøbt til liste2.
I liste2 er x-værdierne de samme som i liste1, mens y-værdierne angiver residualet hørende til hver x-værdi. Et residual er forskellen mellem et punkts y-værdi og f(x)-værdien beregnet vha. regressionsmodellen.
Figur 7.4.9. ResidualPlot-kommandoen.
Figur 7.4.10. Ved indsættelse i ResidualPlot-kommandoen fås en ny dataliste.
Figur 7.4.11. Residualplottet indsat.
Punkterne i liste2 bliver automatisk indsat i koordinatsystemet. Da residualerne typisk er meget små, vil punkterne ligge tæt på x-aksen. Dette ses på figur 7.4.11. Grunden til at skærmudklippet blev placeret lidt over x-aksen, var netop at gøre plads til residualplottet.
Vurder residualplot
På figur 7.4.10 kan vi aflæse, at residualet for de to først punkter ligger på hhv. 0,01 og 0. Med den angivne præcision ligger det første datapunkt altså en hundrededel over grafen for regressionsmodellen, mens det andet punkt ligger på grafen. Der er tale om nogle små afvigelser.
Hvis vi zoomer ind på residualplottet vha. værktøjet Flyt tegnefladen og trækker i y-aksen, fremkommer figur 7.4.12, hvor vi kan se residualerne med en lidt større præcision. Det første punkt har en y-værdi på knapt 0,01, hvilket svarer til et residual på 0,01. Det andet punkt har en y-værdi på lidt under 0, hvilket svarer til et residual på lidt under 0.
På residualplottet ligger punkterne jævnt og tilfældigt fordelt omkring x-aksen. Der er ingen systematik i måden hvorpå punkterne er placeret omkring x-aksen.
Residualerne har en maksimal værdi på ca. 0,02. Da punkterne i liste1 har y-værdier på ca. 4 (fra ca. 3,3 til ca. 4,3), så ligger den relative afvigelsen mellem regressionsmodellen og datapunkterne på omkring 0,5 procent:
0,02 / 4 = 0,005 = 0,5%
Figur 7.4.12. Residualplottet.
Konklusion
Vi konkluderer, at med baggrund i fordelingen af punkterne i residualplottet og den lille relative afvigelse mellem regressionsmodel og datapunkter så følger undersiden af buegangens overdækning en parabelform.
I stedet for at arbejde med kommandoer i Input-feltet eller Algebravinduet kan man også arbejde med regnearket. Regnearket er at foretrække, fordi man her let kan få vist nogle statistiske beregninger.
Indsæt punkters koordinater i regnearkets kolonner
Vi kan få flyttet x- og y-værdierne fra datalisten ind i to kolonner i regnearket vha. FyldSøjle-kommandoen, som er vist i figur 7.4.13.
I FyldSøjle-kommandoen indsættes 1 for at angive den første <søjle>, dvs. kolonne A, og x(liste1) for at angive at det skal være x-værdierne i liste 1. Figur 7.4.14 viser indtastningen.
Figur 7.4.13. FyldSøjle-kommandoen.
Figur 7.4.14. Punkternes x-værdier indsættes i kolonne A.
Figur 7.4.15. Listerne med hhv. x-værdierne og y-værdierne.
Udfør andengradsregression
I regnearket er de nye lister automatisk indskrevet. Kolonne A og B markeres og der laves en regressionsanalyse, som vist på figur 7.4.16.
Ved at vælge regressionsmodel Polynomiel og sætte graden til 2 som vist i figur 7.4.17 fås regressionsligningen til
y = -0,6287x2 + 0,0184x + 4,3638
Denne regressionsligning svarer til regressionsmodellen fra figur 7.4.7.
Figur 7.4.18 viser, hvordan punktplottet kan skiftes ud med residualplottet (som kaldes residualdiagram i GeoGebra).
Figur 7.4.16. Der laves en regressionsanalyse.
Figur 7.4.17. En polynomiel regressionsmodel med grad 2.
Figur 7.4.18. Residualplottet.
Konklusion
Residualplottet i figur 7.4.18 giver os de samme oplysninger som residualplottet i figur 7.4.12. Vi konkluderer derfor som før, at undersiden af buegangens overdækning følger en parabelform.
I kapitel 6.2.4 blev spredning omtalt som et mål for gennemsnittet af observationernes afstand til middelværdien. På lignende måde kan vi definere residualspredning som et mål for, hvor langt de enkelte punkter i residualplottet i gennemsnit ligger fra regressionsmodellens graf.
For hver datapunkt (x , y) beregnes residualet, dvs. forskellen mellem regressionsmodellens værdi f(x) og datapunktets y-værdi
r = y - f(x)
Residualet opløftes herefter i anden potens
r 2 = ( y - f(x) )2
Når kvadratet på alle residualerne er beregnet, skal de lægges sammen.
r12 + r22 + r32 + ... + rn2 = ( y1 - f(x1) )2 + ( y2 - f(x2) )2 + ( y3 - f(x3) )2 + ... + ( yn - f(xn) )2
Denne sum, som kaldes SSE (Sum of Squared Errors), har GeoGebra beregnet. SSE findes ved at klikke på Σx i statistikmenuen. I figur 7.4.17 og 7.4.18 er statistikmenuen åbnet til venstre. Her kan vi aflæse at SSE = 0,0018.
Residualspredningen findes nu ved at dividere SSE med antallet af datapunkter minus 2 og til sidst tage kvadratroden. Formlen for residualspredningen ses i figur 7.4.19. Dette er formel (164) fra formelsamlingen.
Figur 7.4.19. Formel til beregning residualspredningen. Formel (164) i formelsamlingen.
Figur 7.4.20 viser hvordan residualspredningen for andengradspolynomiet, der beskriver parabelbuen på Casa Milà, beregnes. Fra GeoGebra fås SSE = 0,0018 mens antallet af datapunkter, der blev brugt til regressionen, er n = 7.
Af residualspredningen kan vi konkludere, at de enkelte datapunker i gennemsnit ligger 0,019 fra regressionsmodellen.
Figur 7.4.20. Beregning af residualspredningen.