Binomialfordelingen benyttes til at beregne sandsynligheder i situationer der opfylder bestemte kriterier. Det drejer sig altid om at tælle noget.
Kriterierne er følgende:
· Det må kun være to muligheder, Disse betegnes succes og fiasko (fx mænd og kvinder, PC og Mac)
· Sandsynligheden for succes skal være konstant.
· Resultatet af hvert forsøg skal være uafhængigt af resultaterne i de forrige.
Hvis det drejer sig om PC’er og Mac’er kunne situationen være følgende:
Vi ved at 75% af en skoles elever har Mac-computer, 25 % har PC’er.
Binomialfordelingen kan så benyttes til at beregne følgende:
Hvor stor er sandsynligheden for at der i en klasse på 30 elever er præcis 20 der har en Mac?
Hvor stor er sandsynligheden for at der er mindst 12 elever i en klasse der har en PC?
Eleverne kan have lært at beregne dette på forskellige måder, Da brugen af IT varierer fra skole til skole.
Her vil vi vise hvordan det foregår i Excel, da det er et program alle skoler benytter og alle elever skal være gode til at bruge.
Binomialfordelingen er defineret ved to tal, kaldet parametre:
Antalsparameteren, n. Fortæller hvor mange gentagelser der er, i dette tilfælde antallet af elever.
Sandsynlighedsparameteren, p. Fortæller hvor stor sandsynligheden er for det udfald man har besluttet sig for at kalde for succes. I dette tilfælde udpeger vi det, at en elev har en Mac, til at være succes.
Dette samles i udtrykket: b(n,p)
I eksemplet er n = 30 og p = 0,75
Vi har altså b(30 , 0,75)som læses:
’Binomialfordelingen med antalsparameter 30 og sandsynlighedsparameter 0,75’
Binomialfordelte sandsynligheder i Excel findes vha. kommandoen Binomial.fordleling().
Første eksempel: Hvad er sandsynligheden for at netop 20 elever har en Mac.
tal_s: antallet af succeser.
forsøg: Antalsparameteren. Her 30, fordi der er 30 elever.
sandsynlighed: Sandsynlighedsparameteren. Her 0,75
kumulativ: Hvis man skal beregne sandsynligheden for et enkelt udfald, som her, skrives ’Falsk’.
Resultatet er 0,091 eller 9,1%
Andet eksempel:
Hvor stor er sandsynligheden for at der er mindst 12 elever i en klasse der har en PC?
Da succes jo er, at eleven har en Mac, skal vi omskrive spørgsmålet til:
Hvor stor er sandsynligheden for, at der er højst 18 elever i en klasse, der har en Mac?
Det ser således ud:
resultatet er 0,051, eller 5,1%
Konfidensinterval for p i binomialfordelingen
Konfidensinterval er et kompliceret begreb. Det kan forstås som en vurdering af hvor stor sandsynligheden er for at man har fundet den korrekte sandsynlighedsparameter, når man kun kender resultatet af en stikprøve.
Vi springer al teori over, og går direkte til de konkret beregninger i Excel.
Vi tager eksemplet fra før, men laver situationen lidt om. Nu ved vi at af 30 elever i en klasse, er der 21 der har en Mac og 9 der har en PC. Vi vil nu gerne have en vurdering af hvor stor en del af alle elever på skolen, der har en Mac.
Vi indfører en hjælpestørrelse σ (sigma), som er defineret som:
Det foregår på følgende måde i Excel (n = antal elever, p = andelen der har en Mac):
Som det ses er σ = 0,0837
Denne hjælpe størrelse indgår i følgende beregning (man skal ikke spekulere på hvor tallet 1,96 kommer fra. Det er meget kompliceret at forklare):
Vi har nu følgende interval: [0,54 ; 0,86]
Det skal forstås på den måde, at der er 95% chance for at den sande p-værdi ligger mellem 0,54 og 0,86. Altså at der er 95% chance for, at mellem 54% og 86% af eleverne på skolen har en Mac.
Det kan godt tænkes at kun 50% eller så mange som 90% har en Mac, men det er meget usandsynligt.
Det lyder jo ikke som noget særlig præcist resultat. Hvis man vil have et smallere konfidensinterval (altså kende den sande p-værdi med større præcision), skal man bruge en større stikprøve.
Hvis der i en stikprøve på 100 elever er 70 der har en Mac, vil de tilsvarende beregninger give et interval på [0,61 ; 0,79]. Den eneste måde man kan finde den sande p-værdi uden usikkerhed, er ved at spørge alle elever på skolen.