Man kan anvende binomialfordelingen til at konkludere på en meningsmåling. Figur 15.7.1 viser resultatet af folketingsvalget i 2019 (med grå søjler) og resultatet af en Voxmeter-meningsmåling fra foråret 2022 (med grønne søjler). Det ser ud til at liste A (socialdemokratiet) har haft en fremgang siden valget. Men kan vi nu også være sikre på det? I meningsmålinger spørger man jo kun ganske få personer i forhold til det antal personer, der stemmer ved et valg. Måske kunne fremgangen hos liste A skyldes, at man tilfældigvis havde spurgt relativt mange socialdemokratiske vælgere i meningsmålingen?
På Voxmeters hjemmeside kan man læse, at meningsmålingen bygger på 1067 repræsentativt udvalgte personer. Og at liste A ved valget i 2019 fik 25,9% af stemmerne, mens de ved meningsmålingen i uge 16 i 2022 fik 27,9% af stemmerne.
Lad os betragte meningsmålingen som en stikprøve ud af en population, som udgøres af alle de stemmeberettigede. Fordi vi har fokus på liste A, vil vi betragte tilkendegivelsen fra en person i stikprøven som en succes, hvis liste A vælges, og som en fiasko, hvis liste A ikke vælges. Vi vælger at betragte meningsmålingen som et binomialforsøg uden tilbagelægning, fordi vi ikke vil spørge den samme person to gange. Da der ikke er tilbagelægning, vil sandsynligheden for succes ændre sig for hver person i stikprøven man spørger. Men da antalsparameteren i stikprøven er n = 1067, vil sandsynlighedsparameteren ændre sig så ubetydelig lidt mellem hvert valg, at det giver god mening at sætte den til p = 27,9%. Vi lader den binomialfordelte stokastiske variabel X tælle antallet af personer fra stikprøven, der vælger liste A.
For at undersøge om vælgertilslutningen til liste A har ændret sig siden valget i 2019, vil vi lave et højresidet hypotesetest med et signifikansniveau på 5%. Udgangspunktet for testet er, at liste A’s vælgertilslutning i hele populationen stadig er 25,9%, som det var ved valget. Herved bliver vores nulhypotese
H0: p = 25,9%
Da liste A har en højere vælgertilslutning i meningsmålingen end ved valget er vores alternative hypotese
H1: p > 25,9%
altså at liste A har haft en vælgerfremgang.
Vi skal nu finde ud af om vores teststørrelse giver anledning til at acceptere eller forkaste nulhypotesen. Teststørrelsen er det antal succeser, som er i stikprøven dvs. 27,9% af de 1067 personer.
1067 ∙ 0,279 = 297,69 = 298
Vi afrunder teststørrelsen til et helt tal, da vi arbejder med binomialfordelingen.
Vi skal nu undersøge om teststørrelsen er i acceptmængden eller i den kritiske mængde. Hertil er WordMats binomialfordelings-Excelark lettest at arbejde med. På fanebladet [Binomialtest] indtastes n = 1067 og p = 0,259 ud for [Forventet] da det er vores nulhypotese. Desuden vælges et højresidet test, fordi en høj procentdel vil få os til at tvivle på nulhypotesen.
Figur 15.7.2. Teststørrelsen på 298 tilhører ikke den kritiske mængde.
På figur 15.7.2 kan vi se at den kritiske mængde er K = {301, 302, …, 1066, 1067}. Hermed vil teststørrelsen på 298 lige netop tilhøre acceptmængden, hvorfor vi accepterer nulhypotesen. Dvs. at liste A på et 5% signifikansniveau ikke har haft en vælgerfremgang.
Når vi anvender WordMats binomialfordelings-Excelark, behøver vi faktisk ikke at beregne teststørrelsen. Hvis vi indtaster p = 0,279 ud for [Observeret] angiver regnearket selv, at nulhypotesen er bekræftet. Det er vist i figur 15.7.3.
Figur 15.7.2. Teststørrelsen på 298 tilhører ikke den kritiske mængde.
Liste A’s såkaldte stikprøveandel er 27,9%. Dvs. at 27,9% af de adspurgte valgte liste A. Men hvilken tilslutning har liste A i hele populationen? Umiddelbart vil vi svare at liste A’s populationsandel også er 27,9%. Det er det bedste estimat vi har. Da vi ved at populationsandelen højst sandsynlig ikke er lig med stikprøveandelen, indfører vi nu begrebet 95%-konfidensinterval. Konfidensintervallet beskriver den usikkerhed, der er på vores estimerede populationsandel.
Konfidens kender vi fra det engelske confident, der betyder pålidelighed eller sikkerhed. Vi vil altså opstille et interval, hvori vi med 95% sikkerhed kan sige, at populationsandelen befinder sig. Det vil altså være sådan, at hvis vi laver 100 meningsmålinger og bestemmer de tilhørende 100 konfidensintervaller, så vil vi forvente, at den sande populationsandel ligger i 95 af konfidensintervallerne.
Der er tradition for at vælge et 95%-konfidensinterval, fordi de 95% stort set er lig med sandsynligheden for, at et udfald ligger i intervallet på to spredninger til hver side fra middelværdien i normalfordelingen. Hvis Y er en normalfordelt stokastisk variabel gælder
P(µ - 2σ ≤ Y ≤ µ + 2σ) = 95,45%
Vi overfører vores forståelse af spredning fra normalfordelingen til også at gælde i binomialfordelingen. Da antalsparameteren er stor, kan de to fordelinger jo approximeres med hinanden.
Vores stikprøve betragtes nu som et binomialforsøg med antalsparameter n = 1067 og sandsynlighedsparameter p = 27,9%. Vores mål er at bestemme værdien for udtrykkene µ - 2σ og µ + 2σ i sandsynligheden P(µ - 2σ ≤ X ≤ µ + 2σ).
Middelværdien i stikprøven beregnes med formlen
E(X) = µ = n ∙ p = 1067 ∙ 0,279 = 297,69
Spredningen i stikprøven beregnes med formlen
σ = √(n ∙ p ∙ (1 - p)) = √(1067 ∙ 0,279 ∙ (1 - 0,279)) = 14,65
Vi kan nu beregne værdien af udtrykkene fra før
µ - 2σ = 297,69 - 2 ∙ 14,65 = 268,39
µ + 2σ = 297,69 + 2 ∙ 14,65 = 326,99
Da vi skal sige noget om hele populationen, omregnes de to værdier i stikprøven til procent, som så direkte kan overføres til populationen
268,39 / 1067 = 0,252 = 25,2%
326,99 / 1067 = 0,306 = 30,6%
Konklusionen er, at med 95% sandsynlighed ligger populationens vælgertilslutning hos liste A mellem 25,2% og 30,6%.
95%-konfidensintervallet kan udtrykkes som intervallet
[25,2% ; 30,6%]
eller ved hjælp af vores estimerede populationsandel som
27,9% ± 2,7%
Excel i WordMat
Vi kan bestemme 95%-konfidensintervaller ved hjælp af WordMats binomialfordelings-Excelark på fanebladet [Binomialtest]. Der indtastes n = 1067, p = 0,259 ud for [Forventet] og p = 0,279 ud for [Observeret]. Hvis det dobbeltsidet test vælges, angives konfidensintervallet, som vist i figur 15.7.4. Konfidensintervallet påvirkes ikke af typen af hypotesetest, det gør kun den kritiske mængde, som vi ikke er interesseret i nu.
Figur 15.7.4. Konfidensinterval bestem med Excel via WordMat.
GeoGebra
Vi kan også bestemme 95%-konfidensintervaller ved hjælp af GeoGebras sandsynlighedslommeregner på fanebladet [Statistik], hvor [Z interval for andel] skal vælges.
Konfidensniveauet, antal succeser og antalsparameteren indtastes som vist i figur 15.7.5.
Da vi i dette eksempel får angivet antal succeser som stikprøveandelen på 27,9%, skal vi først omregne stikprøveandelen til et antal. Men det er let nok, idet 27,9% af 1067 findes som 1067 ∙ 0,279 = 297,69.
Konfidensintervallet angives nederst i tabellen.
Figur 15.7.5. Konfidensinterval bestem med GeoGebra.