Hvis man kigger på et stykke papir med et færre antal prikker end det i figur 6.2.1, er det lettere at bedømme antallet. Samme klasse skulle bedømme antallet af prikker på papiret i figur 6.2.4.1.
Resultatet af klassens bedømmelse ses i figur 6.2.4.2. Man kan beregne at middelværdien for observationssættet er 7,2.
Søjlediagrammet, der illustrerer observationssættet, ses på figur 6.2.4.3.
Figur 6.2.4.1.
Figur 6.2.4.2. Hyppighed og frekvens for hver observation. Middelværdien er 7,2.
Figur 6.2.4.3. Søjlediagram.
På figur 6.2.4.4 er søjlediagrammerne for de to observationssæt sammenlignet. Vi ser, at observationerne i forsøget med 7 prikker ligger meget mere tæt på hinanden end i forsøget med de 14 prikker.
Dette betyder, at eleverne har meget nemmere ved at vurdere 7 prikker end ved at vurdere 14 prikker tilfældigt sat på et stykke papir. Det er ikke nogen overraskelse.
Figur 6.2.4.4. De to søjlediagrammer sammenlignet.
Det er let at se, at observationerne ved de 14 prikker ligger mere spredt end ved de 7 prikker, og man har faktisk et mål for, hvor stor spredningen er. Spredningsmålet bestemmer man ved først at udregne variansen, v, som er gennemsnittet af observationernes afstand til middelværdien i anden potens.
Den første observation er ”10”. Da middelværdien er 14,43 udregnes for denne observation tallet observationens afstand til middelværdien i anden potens
(10 – 14,43)2 = 19,62
Resultaterne af de tilsvarende beregninger for de andre observationer er vist i række tre i figur 6.2.4.5.
Da vi er i gang med at beregne et gennemsnit, bruger vi den øverste formel i figur 6.2.3.3. Dvs. at hver af de beregnede tal i figur 6.2.4.5's tredje række ganges med den tilsvarende hyppighed.
F.eks. ganger vi ovenstående beregning med hyppigheden af observationen ”10”, som er 2
2 · (10 – 14,43)2 = 2 · 19,62 = 39,24
Dette er første observations bidrag til variansen. På samme måde udregnes alle de andre observationers bidrag. Resultaterne er vist i række fire i figur 6.2.4.5.
Figur 6.2.4.5. Nederste række: Bidrag til variansen fra de forskellige observationer ved de 14 prikker.
For at færdigberegne gennemsnittet lægges alle bidragene fra figur 6.2.4.5's fjerde række sammen (det giver 259,22), og der deles med 30 (observationssættets størrelse).
Vi får variansen: v = 259,22 / 30 = 8,64.
For observationssættet med de 7 prikker beregnes tallene, som er vist i figur 6.2.4.6, hvilket giver variansen: v = 12,80 / 30 = 0,43.
Figur 6.2.4.6. Bidrag til variansen fra de forskellige observationer ved de 7 prikker.
Spredningen for observationssættet udregnes som kvadratroden til variansen. Derved bliver spredningen et mål for gennemsnittet af observationernes afstand til middelværdien. Som symbol for spredningen bruges det græske symbol σ (sigma). Udregningerne for de to observationssæt er hhv.
σ = √(v) = √(8,64) = 2,94 og σ = √(v) = √(0,43) = 0,66
Konklusionen er, at observationerne i forsøget med de 14 prikker har en spredning på 2,94 prikker, mens observationerne i forsøget med de 7 prikker har en spredning på 0,66 prikker.
Spredningen har samme enhed som observationen. At dette er tilfældet, er lettest at forstå, når observationerne har en anden enhed end et antal, som det her er tilfældet. Afsnit 6.3 behandler et eksempel, hvor observationerne måles i millisekunder. I det afsnit argumenteres der for, at enheden for observationer og spredning er den samme.
Formlen for spredningen kan skrives på følgende måder, hvor x1 , x2 , ... , xm er alle de m forskellige observationer.
Figur 6.2.4.7. Formler til beregning af spredningen for et observationssæt hvor kun de forskellige observationer benyttes.
Alternativt kan spredningen beregnes ved anvendelse af alle de n observationer x1 , x2 , ... , xn . Herved får man formlen, som er vist i figur 6.2.4.8.
Figur 6.2.4.8. Formler til beregning af spredningen for et observationssæt hvor alle observationer benyttes. Det er formel (154) i formelsamlingen.
Hvis man er interesseret i spredningen for en hel population, skal man bruge populationens middelværdi i formlen. Men den kender man jo ikke! Man bliver nødt til at bruge stikprøvens middelværdi, selv om den er forkert. Når man laver denne forkerte udregning, kan man vise, at den beregnede spredning bliver for lille, i forhold til hvad den skulle have været. Det er illustreret i figur 6.2.4.9.
Figur 6.2.4.9. Spredningen for populationen beregnet med stikprøvens middelværdi er mindre end spredningen beregnet med populationens (ukendte) middelværdi.
Man er ikke interesseret i at lave en vurdering af populationens spredningen, der er for lille. For at være på den sikre side vil man hellere have et lidt for højt tal som estimat for populationens spredning. Derfor vælger man at dividere med n - 1 i stedet for n. Populationens spredning angiver man med et s.
Figur 6.2.4.10. Formel til beregning af estimatet af populationens spredningen for et observationssæt hvor alle n observationer benyttes. Formel (154a) i formelsamlingen. Bemærk at formel (154a) i formelsamlingen er placeret under formel (157).