Normalfordelingen bruges lidt på samme måde som binomialfordelingen til, ved hjælp af en stikprøve, at udtale sig om en større gruppe. Eller ud fra viden om den stor gruppe at udtale sig om en mindre stikprøve.
Forskellen er, at hvor binomialfordelingen bruges, når noget skal tælles, bruges normalfordelingen, når noget skal måles. Det er lettest at forstå forskellen, når man bruger eksempler som højde eller vægt. Men også priser kan være eksempler på Normalfordelte observationer.
Et simpelt eksempel kunne være elevers højde. Her bør man tage hensyn til at drenge generelt er højere end piger, og derfor dele eleverne i to grupper efter køn. Vi måler højden på alle drengene i 4 klasser, og får 52 resultater:
167, 172, 185, 178 …
Vi kan nu beregne to størrelser, der indgår i Normalfordelingen: middelværdi, μ, og spredning, σ.
Spredningen støtte vi på under ’Beskrivende statistik’.
Det viser sig, at middelværdien er 182 cm og spredningen er 11 cm. Hvis vi antager at drengenes højde er normalfordelt, kan dette skrives således: N(182 , 11).
Hvis vi antager at denne fordeling gælder for alle drenge i gymnasiet, kan vi foretage følgende beregninger. Igen benytter jeg Excel. Og igen vil det være forskelligt fra skole til skole hvilket IT-program der benyttes.
Hvor stor en andel af drengene er lavere end 170 cm?
Hvor stor en andel af drengene ligger i intervallet 172 - 187 cm?
Hvad kan man egentlig sige om det korrekte gennemsnit af alle drenge i gymnasiet?
I Excel ser det således ud:
Kommandoen hedder heldigvis bare Normal.fordeling()
Der indgår følgende:
x: Det højeste tal i det interval man undersøger
middelværdi: μ
standardafvigelse: σ
kumulativ: skal være ’sand’
Resultatet ses her:
For at udregne hvor stor en andel af drengene, der ligger i intervallet 172 - 187 cm, er man nødt til at udregne andelen under 187 og trække andelen under 172 fra:
Vurderingen af hvor præcist gennemsnittet er foregår på næsten samme måde som ved binomialfordelingen, dog er der en anden formel.
Det er lidt forvirrende fordi vi i forvejen har brugt symbolet σ. Vi må derfor bruge et andet symbol, s.
hvor n er antallet af observationer i stikprøven. I dette tilfælde er n = 52
I Excel ser beregningen således ud: =11/kvrod(52)
Derefter forgår beregningen og fortolkningen af konfidensintervallet på samme måde som for Binomialfordelingen:
Resultatet er altså at det eneste vi kan vide er, at med 95% sandsynlighed ligger den sande gennemsnitshøjde af drenge i gymnasiet mellem 179 og 185 cm.
Igen skal vi have en større stikprøve hvis vi vil have et mere præcist resultat. Fx vil en måling af 200 drenge, hvis man får samme resultat: μ = 182, σ = 11, give et interval på 180,5 og 183,5.
Man kan altså se, at der skal virkelig mange målinger til, før resultatet bliver væsentlig mere præcist.