Hvis man skal vælge nogle personer ud af en forsamling, kan man bruge binomialfordelingen til f.eks. at beregne sandsynligheden for, hvor mange der bliver valgt af et bestemt køn. Hvis der er 37% drenge og 63% piger i en klasse, og man på tilfældig vis udvælger 6 elever til en opgave, kan man f.eks. stille spørgsmålene:
”Hvad er sandsynligheden for, at der præcis er 3 piger blandt de udvalgte?”
”Hvad er sandsynligheden for, at der er mindst 4 piger blandt de udvalgte?”
Udvælgelsen kan betragtes som et binomialforsøg, fordi der enten kan udvælges en dreng eller en pige. Hvis vi betegner valget af en pige som en succes, kan spørgsmålene besvares, ved at beregne P(X = 3) og P(X ≥ 4) i den binomialfordeling der har antalsparameter n = 6, sandsynlighedsparameter p = 63% og hvor X angiver antallet af udvalgte piger. Som figur 15.6.1 og figur 15.6.2 viser, er svarene P(X = 3) = 25,3% og P(X ≥ 4) = 60,6%.
Figur 15.6.1. P(X = 3) = 25,3%.
Figur 15.6.2. P(X ≥ 4) = 60,6%.
Der er dog et problem med vores antagelse om sandsynlighedsparameteren. Da der er 63% piger i klassen, er der også 63% sandsynlighed for at udvælge en pige - men kun ved første udvælgelse.
Hvis der i første runde f.eks. blev udvalgt en dreng, vil pigerne udgøre en større procentdel af de tilbageværende elever. Derfor vil sandsynlighedsparameteren være større end 63% i anden runde.
Hvis sandsynlighedsparameteren skulle forblive konstant, skulle den udvalgte dreng ”lægges tilbage” i klassen, inden man udvalgte den næste elev. Så vil man bruge binomialfordelingen til at regne på en udvælgelse som denne, skal man lave en såkaldt stikprøve med tilbagelægning. I dette tilfælde betragtes de 6 udvalgte elever, som en stikprøve af den population hele klassen udgør. Man skal bare være opmærksom på, at der ved tilbagelægningen er en risiko for at udvælge den samme dreng igen, og så er der jo ikke blevet udvalgt to elever men kun en.
Hvis de 37% drenge og 63% piger var elevfordelingen på hele gymnasiet, og man blandt alle skulle udvælge 6 elever til en opgave, så ville den første udvælgelse kun ændre minimalt på sandsynlighedsparameteren. Det skyldes, at én elev i forhold til alle elever på skolen kun udgør f.eks. 1/500 = 0,2%. Hvorimod én elev i forhold til en klasse udgør f.eks. 1/25 = 4%. Når populationen er stor, kan man altså tillade sig at bruge binomialfordelingen til at regne på en såkaldt stikprøve uden tilbagelægning.
Når man laver et binomialforsøg med mange gentagelser, viser det sig, at de tilhørende sandsynligheder med stor nøjagtighed kan beregnes med den såkaldte normalfordeling.
En fordel ved normalfordelingen er, at den regneteknisk ikke er så tung som binomialfordelingen. Men med vore dages computere med stor regnekraft skal man dog op på rigtig mange gentagelser, før man kan mærke, at det tager lang tid for computeren af beregne sandsynlighederne i binomialfordelingen.
En anden fordel ved normalfordelingen er, at begrebet spredning, som vi tidligere er stødt på nogle gange, meget præcist lader sig forklare med den.
Forskellen mellem en normalfordeling og en binomialfordeling er, at værdien af den stokastiske variabel i normalfordelingen ikke behøver at være et helt tal. Et eksempel herpå kunne være, at den normalfordelte stokastiske variabel Y angiver højden af elever i en klasse. En værdi for højden kunne f.eks. være 176,2 cm. Denne forskel afspejler sig også i sandsynlighedsfordelingen, som for binomialfordelingen er et søjlediagram, mens den for en normalfordelt stokastisk variabel er en glat graf med en form, der lidt ligner en klokke.
Figur 15.6.3 viser sandsynlighedsfordelingen af den binomialfordelte stokastiske variabel X~bi(18 , 1/3). Vi kan se, at sandsynligheden for, at den stokastiske variabel X i binomialfordelingen er mindre end eller lig med 7, er P(X ≤ 7) = 77,68%.
Figur 15.6.3. P(X ≤ 7) = 77,68% for X~bi(18,1/3).
Figur 15.6.4. P(X ≤ 7) og
P(Y ≤ 7).
Figur 15.6.5. P(X ≤ 7) og P(Y ≤ 7,5).
På figur 15.6.4 er sandsynlighedsfordelingen for en normalfordelt stokastisk variabel tegnet sammen med søjlediagrammet fra figur 15.6.3. Sandsynligheden for, at den stokastiske variabel Y i normalfordelingen er mindre end eller lig med 7, er P(Y ≤ 7) = 69,61%. Sandsynlighederne P(X ≤ 7) og P(Y ≤ 7) er ikke ens, men de er i nærheden af hinanden.
På figur 15.6.5 er en gengivelse af figur 15.6.4, men hvor P(Y ≤ 7,5) er angivet. Sandsynlighederne P(X ≤ 7) og P(Y ≤ 7,5) er ens med en nøjagtighed på 2 decimaler. Pointen er, at man med normalfordelingen kan få beregnet de samme sandsynligheder som med binomialfordelingen.
Normalfordelingen for en stokastisk variabel Y er karakteriseret ved en middelværdi µ og en spredning σ. Man skriver det kort som Y~N(µ,σ).
Forskriften, der giver os den klokkelignende graf over de normalfordelte stokastiske variable, er vist i figur 15.6.6. På B-niveau skal vi ikke arbejde yderligere med forskriften, det er et emne man arbejder med på A-niveau.
Figur 15.6.6. Normalfordelingens sandsynlighedsfunktion.
Hvis vi skal beregne sandsynligheden for, at en binomialfordelt stokastisk variabel X med antalsparameter n og sandsynlighedsparameter p, har r succeser kan vi bruge følgende formel
P(X ≤ r) ≈ P(Y ≤ r + 0,5)
Hvis antalsparameteren er meget stor kan man anvende den grovere tilnærmelse
P(X ≤ r) ≈ P(Y ≤ r)
Når man skal bruge middelværdien og spredningen i normalfordelingen, beregner man dem ud fra binomialfordelingens formler
µ = n ∙ p
σ = (n ∙ p ∙ (1 - p))0,5
Tilnærmelsen er god når følgende to betingelser er opfyldt
n ∙ p ≥ 5
n ∙ (1 - p) ≥ 5
Da vi lavede søjlediagrammer over et ugrupperet datasæt, et grupperet datasæt og binomialfordelingen, blev begrebet spredning angivet som et mål for, hvor meget søjlerne spredte sig om middelværdien. Jo større spredning, jo længere væk fra middelværdien strakte observationerne sig. Vi er også stødt på residualspredning, som et mål for hvor langt de enkelte punkter i et residualplot i gennemsnit ligger fra regressionsmodellens graf. Så ind til videre har spredning været et ret uklart begreb. Men i forbindelse med normalfordelingen kan man give begrebet en meget præcis definition.
Figur 15.6.7 viser sammenhængen mellem sandsynligheder for enhver normalfordelt stokastisk variabel og spredningen. Figuren viser følgende:
Sandsynlighedsfordelingen er symmetrisk om middelværdien.
Middelværdien er det udfald, der har den største sandsynlighed.
De udfald, som befinder sig indenfor en spredning på hver side af middelværdien, udgør 68,27% af alle udfald. Vi kan skrive det som P(µ - σ ≤ Y ≤ µ + σ) = 68,27%.
De udfald, som befinder sig indenfor to spredninger på hver side af middelværdien, udgør 95,45% af alle udfald. Vi kan skrive det som P(µ - 2σ ≤ Y ≤ µ + 2σ) = 95,45%.
Alle udfald i intervallet [µ - 2σ ; µ + 2σ] kalder man for normale udfald.
De udfald, som befinder sig indenfor tre spredninger på hver side af middelværdien, udgør 99,73% af alle udfald. Vi kan skrive det som P(µ - 3σ ≤ Y ≤ µ + 3σ) = 99,73%.
De udfald, som befinder sig udenfor tre spredninger på hver side af middelværdien, udgør 0,27% af alle udfald. Vi kan skrive det som P(Y ≤ µ - 3σ) + P(µ + 3σ ≤ Y) = 0,27%.
Alle udfald i intervallerne ]-∞ ; µ - 3σ] og [µ + 3σ ; ∞[ kalder man for exceptionelle udfald.
Figur 15.6.7. Normalfordelingen med karakteristiske sandsynligheder og udfald.
Da figur 15.6.7 gælder for samtlige normalfordelinger, kan man konkludere, at jo større spredningen er, jo lavere vil grafen være. Det skyldes, at arealet under hele grafen altid vil være 100%, og at arealet af f.eks. det midterste område altid vil være 68,27%. Så hvis bredden af det midterste område bliver bredere (hvis spredningen bliver større), så skal højden af området også blive mindre, for at arealet forbliver det samme.