Et grupperet observationssæt er et datasæt, hvor man har valgt at samle observationerne i intervaller. Det vælger man typisk, fordi der er meget få af hver observation, og det derfor giver et bedre overblik, hvis man samler sine data i intervaller.
Eksempel 1)
Danmarks Statistisk har indsamlet data om middeltemperaturen i hhv. juni, juli og august i årene 1999-2023,
Tallene kan ses i nedenstående skema:
Disse observationer ville det være oplagt at samle i intervaller, hvilket man kan gøre i hånden eller i WordMat's statistik-værktøj.
Når vi har valgt at arbejde grupperet, skal vi nu lave en tabel, der samler vores informationer. Tabellen skal indeholde følgende elementer: Observation, (interval)Hyppighed, (eventuelt kumuleret hyppighed), (interval)Frekvens, Kumuleret (interval)Frekvens.
Intervalhyppighed fortæller hvor mange gange et interval forekommer. Hyppigheden for intervallet ]13;13,5] er i vores eksempel (se nedenfor) altså 1.
Intervalfrekvens fortæller hvor stor en procentdel af observationssættet de enkelte intervaller udgør. Den regnes ved at dividere intervallets hyppighed med det samlede antal hyppigheder.
Kumuleret intervalfrekvens er en måde at lægge intervalfrekvenserne sammen på løbende.
Man kan samle dem i WordMat's statistik-værktøj, hvor intervallerne er valgt til at have en størrelse på 0,5.
Der er en guide til dette i denne video.
Nu har vi så mulighed for at regne intervalfrekvensen og den kumulerede intervalfrekvens, lave boksplot, sumkurve osv.
Dette giver WordMat's statistik-værktøj os faktisk, hvilket man kan se nedenfor.
Når man arbejder med grupperede observationer, er det en smule anderledes at finde middelværdien end ved ugrupperede observationer.
1) Man finder den midterste værdi i et interval og ganger det med intervalhyppigheden.
2) Man lægger alle resultaterne sammen.
3) Men dividerer med det totale antal observationer.
I intervallet ]12,5;13] finder vi den midterste værdi til 12,75. Den ganger vi med intervalhyppigheden på 3, hvilket giver 38,25.
Derefter finder vi den midterste værdi i intervallet ]13;13,5], som er 13,25. Den ganger vi med intervalhyppigheden på 1, hvilket giver 13,25.
Dette fortsætter vi med for alle intervallerne og lægger alle resultaterne sammen. Det giver 1210,25.
Dette tal dividerer vi nu med det totale antal observationer, som er 75.
Det giver 16,1367. Det passer også med den middelværdi, som WordMat's Statistikværktøj har vist os ovenover.
Når man arbejder med grupperede observationer, er vi ofte interesserede i at tale om de såkaldte "fraktiler".
Man kan sige, at en fraktil er en observationsværdi, der passer til en aflæsning af en kumuleret frekvens.
På den måde svarer nedre kvartil til "25 %-fraktilen", medianen svarer til "50 %-fraktilen" og øvre kvartil svarer til "75 %-fraktilen".
Hvis man ser på sumkurven ovenfor, kan man aflæse at 85 %-fraktilen er ca. 17,5. Det betyder, at 85 % af middeltemperaturene har været 17,5 grader eller mindre.