Als je data gaat verzamelen begin je met je afvragen wat de populatie is die bij je onderzoeksvraag hoort. De populatie is de groep waarnaar je onderzoek doet. Als je onderzoeksvraag bijvoorbeeld is: “Wat is de invloed van groepsdruk op alcoholgebruik onder 16-jarigen in Nederland?”, dan is je populatie ‘de 16-jarigen in Nederland’. En dan gaat het om álle 16-jarigen in Nederland. Om je data te verzamelen, zou je het liefste al die 16-jarigen in Nederland willen ondervragen, maar je kunt je voorstellen dat zoiets praktisch helemaal niet haalbaar is.
Daarom neem je een steekproef. Een steekproef is het gedeelte van de populatie waarbij je de data gaat verzamelen, waarbij je bijvoorbeeld metingen gaat doen of een enquête afneemt. De deelnemers van je onderzoek -degenen in de steekproef- heten de participanten van je onderzoek.
De populatie of steekproef hoeft niet per se uit mensen te bestaan: het kunnen ook dieren of dingen zijn. Je kunt bijvoorbeeld een steekproef nemen van pakken hagelslag in een fabriek. Of je neemt een steekproef van wiskundetoetsen die in 4 havo worden afgenomen op middelbare scholen in Utrecht. In zo’n geval spreek je niet over participanten, maar meer algemeen over elementen uit een populatie die je vervolgens in je steekproef opneemt.
Een steekproef samenstellen
Je streeft altijd naar een representatieve steekproef. Dat betekent dat de steekproef een goede afspiegeling van de populatie is met betrekking tot hetgeen wat je onderzoekt. Je kunt nooit met zekerheid zeggen dat de steekproef representatief is, want je kent de precieze eigenschappen van de populatie niet. Je kunt in je eigen onderzoeksverslag of bij het beoordelen van onderzoeken van anderen wel argumenten geven waarom een steekproef wel of niet representatief zou kunnen zijn.
De omvang van de steekproef heeft invloed op de representativiteit. Je kunt je voorstellen dat je bij het ondervragen van drie participanten geen goede afspiegeling krijgt van een populatie bestaande uit duizenden mensen. Ondervraag je er vijftig, dan komt het waarschijnlijk al meer in de buurt bij de werkelijke populatie. Hoe groter je steekproef is, hoe beter je verschillende statistische technieken kunt toepassen. Een grotere steekproef kost echter ook meer tijd (en geld), dus daar moet de onderzoeker een afweging in maken. Er bestaan technieken om te bepalen hoe groot de steekproef minimaal zou moeten zijn.
Een steekproef is aselect als iedereen uit de populatie een even grote kans heeft om in de steekproef terecht te komen. De elementen van de steekproef worden dan willekeurig gekozen uit de populatie en niet gericht geselecteerd. Een voldoende grote steekproef die ook aselect is, is heel waarschijnlijk representatief.
Dataset
Je verwerkt de data die je bijvoorbeeld via enquêtes verkregen hebt digitaal in een dataset, zoals in het voorbeeld hieronder. Deze dataset is geopend in het programma VUstat, waarmee je gemakkelijk diagrammen kunt maken en analyses kunt doen.
In de meest linker kolom staan alle participanten genummerd. Het aantal ‘records’ onderaan geeft aan hoeveel participanten er in totaal zijn en hoe ver de nummering dus doorloopt, in dit geval een hele grote steekproef van 69339 participanten. De andere kolommen komen overeen met in dit geval een enquêtevraag. De participanten hebben bij de eerste vraag aangegeven in welke leeftijdsgroep ze vallen, bij de tweede vraag of ze man of vrouw zijn, enzovoort. Hiermee zijn ‘leeftijd’ en ‘geslacht’ de eerste twee variabelen. Het aantal rijen in het databestand is dus het aantal participanten en het aantal kolommen is het aantal variabelen. Bij een complete dataset ben je klaar met het verzamelen van data en ga je door naar het beschrijven van je data.