Data analyseren
Zodra je de data hebt beschreven met behulp van tabellen, diagrammen en kentallen, kan het analyseren van de data beginnen. Voor de drie soorten onderzoeksvragen die eerder besproken zijn bestaan verschillende analysetechnieken, die we nu zullen bespreken.
Proportie of gemiddelde schatten
Het eerste type onderzoeksvraag hoort bij het schatten van de proportie of het gemiddelde. Voorbeelden daarvan zijn:
“Welk deel van de 18-jarige kiezers zou nu op de PVV stemmen?” (proportie)
“Wat is het gemiddelde aantal uur dat een 17-jarige op zijn/haar telefoon kijkt per dag?” (gemiddelde)
We gaan nu in op de statistische analysetechnieken om het proportie of het gemiddelde van een populatie te schatten.
Proportie schatten
Een ander woord voor proportie is gedeelte. Het is een getal tussen 0 en 1 en geeft aan welk deel van de groep aan een bepaalde eigenschap voldoet. We maken een onderscheid tussen de populatieproportie en de steekproefproportie. De populatie is de groep waar je onderzoek naar doet. Omdat je niet die hele populatie kunt onderzoeken, is de populatieproportie altijd onbekend. Je neemt daarom een steekproef. De steekproef is de groep waarbij je de data verzamelt. Je kunt daarna een schatting van de populatieproportie doen met behulp van de steekproefproportie.
Je doet bijvoorbeeld onderzoek naar het percentage vegetariërs in Nederland. Je neemt een steekproef van 1000 Nederlanders. Stel je nu voor dat vervolgens blijkt dat 70 participanten uit deze steekproef vegetariër zijn. De steekproefproportie bereken je dan door het gedeelte door het geheel te delen: 70/1000 = 0.07. Er geldt dus dat 7% van de participanten van jouw onderzoek vegetariër is.
Je zou nu simpelweg kunnen zeggen dat de populatieproportie ook ongeveer rond de 0.07 zal liggen, oftewel dat ongeveer 7% van de Nederlanders vegetariër is. Maar dat percentage kan daar natuurlijk erg van af wijken. Je hebt een steekproef van 1000 mensen genomen en in Nederland zijn er bijna 17 miljoen mensen. Misschien zijn er in jouw steekproef toevallig veel meer of juist veel minder vegetariërs. Hoe groter je steekproef is, hoe betrouwbaarder dat percentage zal zijn. Om de betrouwbaarheid van je percentage aan te geven, kun je gebruik maken van het betrouwbaarheidsinterval.
Een interval is een verzameling getallen met een ondergrens en een bovengrens en wordt aangegeven met twee haken: […,…]. Het interval [2,7] betekent ‘alle getallen tussen 2 en 7, waarbij 2 en 7 worden meegerekend’. Een interval is continu. Er zijn oneindig veel getallen tussen 2 en 7: bijvoorbeeld 2.00001, 3.37563, 5.499, 6.999999, et cetera. Die horen allemaal bij het interval [2,7]. De getallen 2 en 7 heten de grenzen van het interval.
Het betrouwbaarheidsinterval wordt dus ook weergegeven met de twee haken: […,…]. Er zijn twee soorten betrouwbaarheidsintervallen: het 95%-betrouwbaarheidsinterval en het 68%-betrouwbaarheidsinterval. Die percentages komen je misschien bekend voor… Van de normale verdeling! Dat is niet toevallig. Stel je doet duizend onderzoeken met dus ook duizend steekproeven (dat gebeurt natuurlijk nooit), dan blijken de steekproefproporties normaal verdeeld te zijn. De formule die straks volgt zal dus kenmerken bevatten van die normale verdeling.
De populatieproportie wordt aangegeven met de letter , en de steekproefproportie met . In de statistiek gebruiken we zo’n dakje op de letter om aan te geven dat het een schatting is van de echte waarde. Dat is hier ook het geval: de steekproefproportie geeft een schatting van de populatieproportie. Het 95%-betrouwbaarheidsinterval kun je bepalen met de volgende formule:
Je ziet dat je naast de steekproefproportie, ook de standaardafwijking nodig hebt, die net als bij de normale verdeling weergegeven wordt met de Griekse letter . De standaardafwijking kun je bepalen met onderstaande formule:
Deze standaardafwijking is een benadering voor de standaardafwijking van de populatie, die onbekend is. Eigenlijk zou dus ook op deze letter sigma een dakje moeten staan.
De letter n staat voor de omvang van de steekproef. Hoe groter je steekproef is, hoe smaller je betrouwbaarheidsinterval wordt en hoe betrouwbaarder de schatting van de populatieproportie zal zijn.
We bepalen nu het 95%-betrouwbaarheidsinterval bij het voorbeeld met de vegetariërs hierboven. De steekproefproportie is 0.07 en de omvang van de steekproef is 1000. Daarmee kunnen we de standaardafwijking bepalen:
De ondergrens van het betrouwbaarheidsinterval wordt dan:
En de bovengrens:
Het 95%-betrouwbaarheidsinterval is dan:
Met een steekproefproportie van 0.07 en een steekproefomvang van 1000 hebben we nu een interval voor de populatieproportie bepaald. We kunnen met 95% zekerheid zeggen dat de populatieproportie tussen 0.054 en 0.086 ligt. Oftewel: het percentage vegetariërs in Nederland zal (met 95% zekerheid) tussen de 5,4% en 8,6% liggen.
Kortom, het berekenen van een betrouwbaarheidsinterval is een manier om met behulp van een steekproefproportie en steekproefomvang iets te zeggen over de proportie in de hele populatie.
De formules hierboven hoef je niet te onthouden. Op het formuleblad die je bij het eindexamen mag gebruiken krijg je de volgende formule:
Op het formuleblad wordt de steekproefproportie zonder dakje op de p weergegeven.
Het 68%-betrouwbaarheidsinterval kun je op bijna precies dezelfde manier berekenen. Je laat alleen de ‘2’ uit de formule weg. Het is dus de steekproefproportie plus en min één keer de standaardafwijking, in plaats van twee keer. Net als bij de vuistregels van de normale verdeling. De betekenis van dit interval is dat je met 68% zekerheid kunt zeggen dat de populatieproportie in het interval ligt.