kommenter på den fagligt teoretiske sammenhæng (værdien på x-aksen relation til værdien på y-aksen, som det også er præsenteret i figurens overskrift)
kommenter på datapunkternes generelle placering - både i forhold til tendenslinjen og til hinanden
kommenter på udvalgte datapunkters placering - både i forhold til tendenslinjen og i forhold til hinanden
kommenter på regressionsligningen - herunder a-værdien (og tendenslinjens hældning) og eventuelt på b-værdien (skæringspunkt på y-aksen, hvis det er relevant)
kommenter på r2-værdien
disse forskellige elementer giver en samlet vurdering af hvad der kan udledes af regressionmodellen. Husk at samvarians ikke er det samme som kausalitet/årsagssammenhæng
Denne type krav kan forekomme i både fællesdelen (i genren Hv-spørgsmål) og i en delopgave (i genren Undersøg). Det er en figur med en regressionsmodel. Modellen er opstillet med udgangspunkt i en faglig teoretisk overvejelse. Modellen indeholder to variabler - x og y. Og det forudsættes at x påvirker y. Figuren indeholder at yx-plot/scatter plot med de enkelte datapunkters position samt en tendenslinje. I forbindelse med figuren er der også en ligningsforskrift for tendenslinjen og en r2-værdi. I fortolkningen af en regressionsmodel skal man således kommentere på disse nævnte elementer.
Formålet med at lave en regressionsanalyse er at undersøge et samvarians/korrelation mellem x og y og derved kunne sandsynliggøre en årsagssammenhæng/kausalitet mellem x og y.
OBS! En god overensstemmelse mellem datapunkternes placering og tendenslinjen og derved også en høj r2-værdi er ikke ensbetydende med kausalitet/årsagssammenhæng. Dette kan bare betyde, at der er en samvarians - altså at de to variabler er sammenfaldende. Samvariansen mellem x og y kan være helt tilfældig eller at der var en tredje bagvedliggende variabel (den kan vi kalde z), der påvirker både x og y. Det kan også være man fagligt kan argumentere for, at det var y der påvirkede x. Her ville man stadig kunne tale om kausalitet - bare modsat af det der var opstillet i modellen.
R2 varierer mellem 0 og 1. Hvis R2 er 1, ligger alle punkterne præcis på den rette linje, og tendenslinjen/den lineære model kan forklare 100% af variationen i den afhængige variabel y. Jo tættere datapunkterne ligger på tendenslinjen, jo højere bliver R2. Jo mere spredt punkterne ligger i forhold til linjen, jo mere vil R2 nærme sig 0. Hvis R2 fx er 0,59, ligger punkterne lidt spredt i forhold til linjen, men har formentlig stadig form som ”en cigar” eller "et jævnt bælte" omkring tendenslinjen. R2 viser forklaringsgraden, som udtrykker hvor stor en del af variationen i den afhængige variabel y, der kan forklares/beskrives af den uafhængige variabel x og derfved af tendenslinjen/ligningen/modellen.
Lineær regression er, som nævnt ovenfor, ikke i sig selv et bevis for, at der er en årsagssammenhæng. For at kunne tale om en sammenhæng (og ikke blot en samvariation) skal vi fagligt, teoretisk kunne begrunde en sammenhæng mellem den uafhængige og den afhængige variabel (jf. eksemplet med storke og babyer).
Tendenslinjen er den linje, der ligger tættest på punkterne. Ligningen for linjen er af typen y = ax + b, hvor a angiver hældningskoefficienten for linjen og b angiver skæringspunktet med y-aksen.
Modellen om sammenhæng mellem antal års skolegang og forventet levealder (se eksemplet til højre). Her kan forventet levealder (x) forrklare 62,94 % af variationen i forventet levealder (y), mens de sidste 37,06 % må forklares ud fra andre forhold end denne model. I ligningen Y=1,8529x + 56,697, som viser sammenhængen mellem års skolegang og forventet levealder, er hældningskoefficienten 1,8529: Når x (her er det "antal års skolegang") stiger med 1 år, stiger y med 1,8529 år. Modellen udtrykker som udgangspunkt denne sammenhæng - altså at x påvirker y. Modellen er en kvantitativ model (til forskel fra en kvalitativ model) og er lineær. En negativ værdi (hældingen) før x angiver en faldende tendenslinje, mens en positiv værdi angiver en stigende tendenslinje. Det kunne i forbindelse med en faglig teoretisk refleksion om modellen diskuteres om det i dette tilfælde er x der påvirker y eller om y kunne argumenteres for at påvirke x. Altså man kunne også argumentere for at forventet levealder (y) påvirker, hvor mange års skolegang (x) et samfund har. Her skal så inddrages relevant samfundsfaglig teori til at sandsynliggøre fortolkninge at x påvirker y og omvendt.
På den måde kan man have forskellige faglige overvejelser omkring kausaliteten, veje i kausaliteten og eventuelle andre variabler der kunne forklare en samvarians/korrelation og niveauet af denne korrelation.
Her er en tabel med to variabler x (antal års skolegang) og y (forventet levealder), der bliver testet for korrelation/samvarians (den rent statistisk matematiske test) fordelt på udvalgte lande. Giver det fagligt teoretisk mening at teste om en årsagssammenhæng (den samfundsfaglige test)? Ja, det kan godt give faglig mening at uddannelsesniveau kan påvirke levealderen (jf. fx kulturel kapital). Men det kan også overvejes om årsagssammenhængen går den anden vej.
Vær opmærksom på at skriv sammenhængende med brug af forbinderord (kausale, additive og kontrastive) og sætningsledere - fx "hvilket også kan ses i ...", "Her skal vi også være opmærksom på ...", "Herudover er der ... ", "Modsat viser ... " osv.
Observation af sammenhængen mellem de to variabler
Visuel kommentering - er tendenslinjen stigende eller faldende
Matematisk - er a positiv eller negativ + hvad er den den relative ændring for y når x stiger med 1 (enhed).
Faglig fortolkning på sammenhængen (anvendelse af samfundsfaglig teori)
Observation på potentielle begrænsninger ved modellen og mulige andre faktorer)
Matematisk - r2 korrelationskoefficienten kvadreret (forklaringsgraden)
Visuelt - datapunkternes spredning omkring tendenslinjen herunder outliers samt (udvalgte) datapunkters position over/under tendenslinjen, klynger af datapunkter mv.
Faglig fortolkning på andre faktorer (anvendelse af samfundsfaglig teori)
(eventuelt overvejelser om retning i kausalitet)
Kort opsummering
1a. Hvad kan der af tabel 1 udledes om sammenhængen mellem andelen af 25-64-årige med videregående uddannelse og tilslutningen til Danmarksdemokraterne ved folketingsvalget i 2022?
Besvarelsen skal understøttes af et diagram med en lineær regression, der viser sammenhængen mellem andelen af 25-64-årige med videregående uddannelse og tilslutningen til Danmarksdemokraterne ved folketingsvalget i 2022. Du skal anvende viden om vælgeradfærd.
Tabel 1 viser, at sammenhængen mellem andel 25-64-årige med videregående uddannelse i den givende kommune og tilslutningen til Danmarksdemokraterne ved folketingsvalget i 2022 er negativ. Andelen med videregående uddannelse vurderes til at være den uafhængige variabel og tilslutning til Danmarksdemokraterne den afhængige. Hældningskoefficienten er -0,2892, hvilket betyder, at når andelen med videregående uddannelse falder med 1 procentpoint, så falder tilslutningen til Danmarksdemokraterne med 0,2892 procentpoint. R2-værdien fortæller, at andelen med videregående uddannelse forklarer 67,61% af variationen i tilslutningen til Danmarksdemokraterne. Sammenhængen har altså en forholdsvis høj forklaringsgrad. De sidste 32,39% af variationen kan f.eks. forklares ved, at kommunerne ikke blot indhegner byen, men også det omkringliggende område. Der kan derfor både være by og landbrug i samme kommune, hvilket vil påvirke forklaringsgraden. Punkterne er nogenlunde lige fordelt om tendenslinjen. Det fortæller, at sammenhængen sandsynligvis er lineær. Der er nogle outliers i form af Brøndby, Hjørring og Tønder. Brøndby er placeret markant under tendenslinjen, hvilket kan skyldes, at det er en forstad til København, der er en storby. Danmarksdemokraternes partiprogram lægger fokus på landbrug, hvilket ikke er tiltrækkende for en population, der er tæt beliggende på storbyerne, hvor landbruget ikkekan udfolde sig. Hjørring og Tønder er placeret markant over tendenslinjen, hvilket kan forklares, da disse byer er beliggende udenfor større byer, hvor landbruget fylder mere og har mulighed for større udbytte af Danmarksdemokraternes politik herom. Danmarksdemokraterne mener også, at virksomheder udenfor de største byer skal have større anerkendelse, hvilket også kunne ligge til grund for, hvorfor der er større vælgertilslutning fra byer, der er placeret længere væk fra storbyerne.
Vælgerne stemmer ofte efter egne interesser. Det kan både være economic voting og issue voting. Ved economic voting stemmer vælgerne som rationelle individer, som stemmer efter egne eller samfundets økonomiske interesser. I dette tilfælde vil det være egotropiske vælgere, der er placeret længere væk fra storbyerne, som stemmer efter deres egne økonomiske interesse, som Danmarksdemokraterne varetager med deres politik om landbrug og anerkendelse til virksomheder udenfor storbyen. Issuevoteren vil stemme på Danmarksdemokraterne, fordi de er det parti, der bedst repræsenterer deres synspunkt indenfor de issues vælgeren synes er vigtigst. Der ses på tabel 1 en kausal sammenhæng. Det er ikke muligt, at Danmarksdemokraternes stemmeandel ved folketingsvalget kan have en indvirkning på andelen af 25-64-årige med videregående uddannelse, da en stemmeandel ikke kan påvirke en andel med videregående uddannelse.
1a. Hvad kan der af tabel 1 udledes om sammenhængen mellem andelen af 25-64-årige med videregående uddannelse og tilslutningen til Danmarksdemokraterne ved folketingsvalget i 2022?
Besvarelsen skal understøttes af et diagram med en lineær regression, der viser sammenhængen mellem andelen af 25-64-årige med videregående uddannelse og tilslutningen til Danmarksdemokraterne ved folketingsvalget i 2022. Du skal anvende viden om vælgeradfærd.
Figur 1 viser sammenhængen mellem andelen af 25-64-årige med videregående uddannelser og tilslutningen til partiet Danmarksdemokraterne. Af den lineære regression fremgår det, at når andelen af de 25-64-årige med videregående uddannelser øges med 1 procentpoint, så falder tilslutningen til Danmarksdemokraterne med 0.29 procentpoint. Det vil sige, at der er en negativ korrelation mellem de to variable – jo mere uddannet befolkningen er, desto lavere er Danmarksdemokraternes stemmeandel.
Danmarksdemokraterne er et nyopstået parti, stiftet i 2022 af tidligere medlem af Venstre, Inger Støjberg. Partiet har endnu ikke en klar ideologi, men placere sig i blåblok med en højreorienteret fordelings- og værdipolitisk. Partiets vælgere karakteriseres ofte ved erhvervsfaglige- eller folkeskolen som højest færdiggjorte uddannelse, hvilket kan forklare mønsteret i figur 1, hvor Danmarksdemokraterne har en større stemmeandel i kommuner med en lavere procent af folk med videregående uddannelser. Skillelinjeteorien kan med begreberne ”objektive niveau” og ”organisatoriske niveau” hjælpe med at forklare mønsteret, for når det kommer til værdipolitiske spørgsmål, ses et konfliktforhold mellem højt- og lavt uddannede. Højtuddannede er ofte mere tolerante og værdipolitisk venstreorienterede med libertære og globale værdier, indebærende åbenhed og mangfoldighed. De lavt uddannede derimod har mere autoritære og nationale værdier, bl.a. ønsker om stram udlændinge- og retspolitik, samt modstand mod klimapolitiske tiltag, hvilket netop er områder, som er dominerende i Danmarkdemokraternes politik.
Selvom det kan bidrage til forståelsen af det observerede mønster i figur 1, viser den tilgængelige sammenhæng en vis grad af forklaringskraft med en R2 = 0,68. Dog er der tydelige afvigelser fra tendenslinjen, f.eks. Frederikshavn, Hjørring og Brøndby, hvilket antyder, at der er andre faktorer, der spiller en rolle for stemmeandelen og uddannelsesniveau. Brøndby har en lav procentdel af folk med videregående uddannelser, men ligger tæt på hovedstaden København, og folk bosat i de større byer har oftest mere venstreorienterede holdninger, og stemmer derefter. Hvorimod Danmarksdemokraterne rækker direkte ud mod udkantsdanmark og ønsker at flytte ressourcer og opmærksomhed fra de store byer til provinsen og lokalsamfund.1 Michigan-modellen, en teori om vælgeradfærd, kan bruges til at belyse afvigelser Frederikshavn og Hjørring. Korttidsfaktorer, hvor vælgernes partiidentifikation kan påvirkes af personlige holdning til kandidaterne, kan forklare den høje andel stemmer i de to byer, da byerne ligger i Nordjylland, hvilket netop er den kreds, som partiets formand Inger Støjberg stiller op i.
Nedenfor kan du downloade et dokument, hvor du kan øve at opstille regressionsmodeller (diagrammer) på baggrund af data.