Kentallen: centrummaten
De drie soorten centrummaten zijn het gemiddelde, de mediaan en de modus:
Het gemiddelde is het evenwichtspunt van de verdeling. Het gemiddelde van de steekproef wordt aangegeven met het symbool x̄, waarbij X de variabele is.
De mediaan is de middelste waarde. De ene helft van de data zit onder de mediaan, en de andere helft zit boven de mediaan.
De modus is de meest voorkomende waarde.
In theorie kun je deze drie centrummaten met de hand bepalen zoals je in de onderbouw hebt geleerd. In de praktijk zijn datasets vaak zo groot, dat je het beter door de computer kunt laten doen. In VUstat kun je met één druk op de knop de kentallen genereren. Bij het aantal uren dat participanten sporten in de week krijg je bijvoorbeeld zo’n tabel:
Je ziet hierin de omvang van de steekproef: 69339 participanten. Ook het gemiddelde, de mediaan en de modus zijn in de tabel weergegeven:
De participanten sporten gemiddeld 4,6 uur per week.
De helft van de participanten sport minder dan 3 uur per week, de andere helft sport meer dan 3 uur per week.
Het antwoord ‘0 uur sporten’ kwam het meeste voor, dus de meeste participanten sporten 0 uur per week.
Alleen bij kwantitatieve variabelen heeft het zin om te spreken over een gemiddelde en een mediaan. De modus kun je ook bij kwalitatieve variabelen (categorieën) gebruiken en dan heet het de modale klasse.
Je ziet dat alle centrummaten op hun eigen manier iets over de data zeggen. Het gemiddelde wordt het vaakst gebruikt in de media, maar juist ook de mediaan en modus geven interessante informatie.
Kentallen: spreidingsmaten
De drie soorten spreidingsmaten zijn de spreidingsbreedte, de interkwartielafstand en de standaardafwijking:
De spreidingsbreedte geeft het bereik van de dataset weer. Het is het verschil tussen de maximale waarde en de minimale waarde (maximum – minimum). Oftewel, de breedte van de boxplot als geheel.
De interkwartielafstand laat zien waar de ‘middelste 50%’ van de data zit. Het is het verschil tussen het derde en het eerste kwartiel (Q3 – Q1). Oftewel, de breedte van de box in de boxplot.
De standaardafwijking is te beschrijven als de gemiddelde afwijking van het gemiddelde. Daar zit een ingewikkelde berekening achter die je niet hoeft te kennen.
Voor alle drie de spreidingsmaten geldt: hoe groter, hoe meer spreiding in de data. Dat betekent dat de data zich minder rond het gemiddelde centreert.
Ook de spreidingsmaten kun je met de computer bepalen. Mocht je al een boxplot hebben, dan kun je daar gemakkelijk de spreidingsbreedte en interkwartielafstand uit aflezen. We kijken weer naar de kentallen van het aantal uren sporten:
De spreidingsbreedte is het maximum min het minimum. Dus in dit geval 50 – 0 = 50. Het verschil tussen de participant die het meeste aantal uren sport en de participant die het minste aantal uren sport, is dus 50 uur.
De interkwartielafstand kun je niet uit deze tabel aflezen, daarvoor kun je een boxplot maken en de breedte van de box aflezen.
De standaardafwijking kun je aflezen bij ‘Stand Afw. Steekproef’: die is 5,96. De gemiddelde afwijking van het gemiddelde aantal uren sporten (4,6) is in deze dataset dus 5,96 uur.
Spreidingsmaten kom je nog niet vaak tegen in de media, maar zijn wel een hele belangrijke aanvulling op de centrummaten.
Kentallen: Het effect van uitschieters
Als onderzoeker hoef je niet altijd alle centrum- en spreidingsmaten (kentallen) van je dataset weer te geven. Om een keuze te maken, is het belangrijk om het effect van uitschieters op de kentallen te begrijpen. Daarvoor gaan we kijken naar twee kleine datasets. Hieronder zie je een histogram van de cijfers op een wiskundetoets, met daaronder de data als een rij getallen. Je ziet dat er één 4 is gehaald, twee vijven, enzovoorts.
Dan kijken we meteen ook naar een iets andere situatie. Ten opzichte van de rij getallen hiervoor is de 4 veranderd in een 1. De leerling met het laagste cijfer voor de toets had dus geen 4, maar een 1. Dat noemen we een uitschieter.
Een uitschieter is een participant die heel erg afwijkt van de rest van de dataset. Zo’n uitschieter heeft effect op de kentallen.
Het gemiddelde is erg gevoelig voor uitschieters en wordt de kant van de uitschieter op getrokken. In het voorbeeld hierboven: de leerling met een 1 voor de toets haalt het gemiddelde van de hele klas omlaag.
De mediaan wordt niet beïnvloed door uitschieters. In het voorbeeld hierboven is het midden van de rij getallen in beide datasets het cijfer ‘8’. De 4 die in een 1 verandert, heeft daar geen invloed op.
De modus wordt niet beïnvloed door uitschieters. In het voorbeeld hierboven is bij beide datasets de meest voorkomende waarde het cijfer ‘8’.
Belangrijk om te onthouden is dat het gemiddelde als enige van de drie centrummaten gevoelig is voor uitschieters, wat soms onhandig is. Stel dat er één gekke waarde in je dataset zit die heel hoog of heel laag uitvalt, dan beïnvloedt die het gemiddelde enorm en dan geeft het gemiddelde misschien geen goed beeld van wat er echt aan de hand is. Het is dan goed om ook de modus of de mediaan te vermelden.
Ook op een deel van de spreidingsmaten hebben uitschieters invloed.
De spreidingsbreedte is erg gevoelig voor uitschieters en wordt erdoor vergroot. In het voorbeeld hierboven is de spreidingsbreedte in de eerste dataset 10 – 4 = 6, en in de tweede dataset 10 – 1 = 9.
De interkwartielafstand wordt niet beïnvloed door uitschieters. De uitschieters vallen namelijk buiten ‘de middelste 50%’ van de dataset. Hak je de rij getallen uit het voorbeeld hierboven in vier gelijke stukken, dan zit de uitschieter in de meest linker kwart. Daarmee valt de uitschieter buiten de box van de boxplot en heeft dus geen invloed op de breedte van de box.
De standaardafwijking is gevoelig voor uitschieters en wordt erdoor vergroot. De gemiddelde afwijking van het gemiddelde wordt namelijk groter als er een waarde bij komt die héél erg afwijkt van het gemiddelde (een uitschieter).
Belangrijk om te onthouden is dat de interkwartielafstand als enige van de drie centrummaten niet gevoelig is voor uitschieters, wat een voordeel kan als je te maken hebt met een gekke afwijkende waarde in je data. De interkwartielafstand geeft dan een realistischer beeld van de hoeveelheid spreiding in je data.