Nadat je de data hebt ingevoerd moet je de data controleren op fouten, zeker wanneer je de data manueel hebt ingevoerd. Dit noemt men data cleaning. Een voorbeeld van verkeerd ingevoerde data is wanneer er een foute code werd ingegeven: waarde 0 in de plaats van 1 bij een variabele waarbij 1= ja en 2= nee de enige geldige antwoordcategorieën zijn. De data controleren kan je eenvoudig doen door een frequentietabel te trekken voor elke variabele uit je datafile. Een frequentietabel geeft een overzicht van de antwoordcategorieën die voorkomen in de datafile en het aantal respondenten met deze antwoorden. Foute en dus niet geldige antwoorden kan je dus op deze manier opsporen. Wanneer je fouten ontdekt, moet je deze aanpassen vooraleer je geldige analyses kan uitvoeren. Dit kan je doen door handmatig de fouten te vervangen of door je variabele te hercoderen. Hierover zal je meer te weten komen in stap 3 wanneer we de data zullen bewerken.
Uitleg van de begrippen die in de output worden weergegeven:
Rijen:
Valid: de antwoordcategorieën die als geldig worden gerekend
Kolommen:
Frequency: het aantal respondenten met dit antwoord = de absolute frequentie