Den del af statistikken, der behandler stikprøver og vurderer, hvad stikprøver kan sige om en hel population, kaldes for matematisk statistik. Her gives nogle eksempler på, hvad der menes med population og stikprøve.
En stikprøve er den delmængde af populationen, som man undersøger. Det er illustreret i figur 6.1.1.
Figur 6.1.1. Stikprøve og population.
Eksempel 6.1.1 - Vælgertilslutning
Ved et folketingsvalg spørges alle de stemmeberettigede vælger, hvilket parti de vil give deres stemme. Alle vælgerne udgør hele populationen, altså alle dem der er relevante at spørge ved et valg.
I en politisk meningsmåling spørges kun en lille del af de stemmeberettigede, f.eks. 1.500 vælgere. Man foretager en stikprøve. Ved at udvælge denne stikprøve omhyggeligt kan man opnå, at den faktisk fortæller noget om alle de stemmeberettigedes holdning. Hvis stikprøven afspejler befolkningens sammensætning mht. køn, aldersfordeling, social status, osv., vil vi kalde stikprøven for repræsentativ.
Det er ikke altid lige let at lave en repræsentativ stikprøve, og man kan nemt komme til at lave en systematisk fejl. Hvis man f.eks. bruger Facebook til at udvælge 1.500 vælgere, vil man sandsynligvis få en overvægt af unge, da det ifølge en opgørelse fra 2020 er 85% af aldersgruppen 15-35 år, der har en Facebookkonto, mens det for aldersgruppen 35-55 år kun er 76%. Tilsvarende kan det ikke nytte kun at spørge vælgere i en bestemt bydel.
Eksempel 6.1.2 - Kvalitetskontrol
Ved produktion foretages løbende kontrol af kvaliteten af de producerede varer. Ofte kan man ikke undersøge samtlige produkter, der udgør populationen, så man vælger at undersøge et tilfældigt udsnit af produktionen. Igen udtager man en stikprøve. Resultatet af stikprøven kan give informationer om kvaliteten af hele produktionen.
Eksempel 6.1.3 - Elevrådet
På et gymnasium kunne elevrådet ønske at kende elevernes holdning til et bestemt spørgsmål f.eks. skolens arbejde med FN's Verdensmål. Her er populationen alle elever på gymnasiet, men vælger man at gennemføre en spørgeskemaundersøgelse på skolens interne kommunikationsplatform, får man kun hørt den del af eleverne, der faktisk ser og vælger at besvare spørgeskemaet. Altså hører man kun meningerne fra en stikprøve og den er ikke nødvendigvis repræsentativ.
I undersøgelser skelner man mellem to typer af variable: Numerisk variabel og kategorisk variabel. Den numeriske variabel har tilknyttet en talværdi, mens den kategoriske variabel har tilknyttet en kategori.
Eksempel 6.1.4 - Typer af variable
Et institut for meningsmålinger vil undersøge vælgertilslutningen til de forskellige partier fordelt på køn og alder. Instituttet udtager en stikprøve på 1.000 mennesker, og der spørges til alder, køn og hvilket parti man ville stemme på, hvis der var valg i morgen.
I dette eksempel har vi:
Populationen er den danske vælgerskare.
Stikprøven er de 1.000 stemmeberettigede danskere.
Alderen er en numerisk variabel, der kan antage værdierne fra 18 år og opefter.
Kønnet er en kategorisk variabel, der kan antage værdierne mand, kvinde og andet.
Partiet er en kategorisk variabel, der kan antage værdierne A, B, C, D, F, I, K, O, V, Ø, Å, ...
Nogle numeriske variable er i virkeligheden kategoriske f.eks. postnummer (som bruges til at opdele i geografiske kategorier) og personnummer (som bruges til at identificere personer).
Et formål med at lave statistiske undersøgelser er at påvise sammenhænge mellem de variable, der indgår i undersøgelsen. Vi påviser matematiske sammenhænge mellem variable ved at lave regressionsanalyser. Har man påvist en sammenhæng mellem to variable, skal man passe på, at sammenhængen i virkeligheden ikke skyldes en tredje såkaldt skjult variabel.
Eksempel 6.1.5 - Salg af is og drukneulykker
Sammenligner man salget af is i Danmark med antallet af drukneulykker, vil man finde at de to variable hænger sammen. Når antallet af solgte is stiger, stiger antallet af drukneulykker også. Tilsvarende ser man, at de to variable falder samtidigt. Dette kunne få en til at konkludere, at isspisning øger risikoen for at drukne.
I virkeligheden vil en stigning af de to variable skyldes varmere vejr. Om sommeren sælges der flere is, og der er flere badegæster ved strandene. Modsat om vinteren. Det varme vejr kan altså forklare den tilsyneladende sammenhæng mellem variablene. Derfor er varmen i dette tilfælde en skjult variabel.