Andmeanalüüs

Suures osas uurimistöödest kasutatakse kvantitatiivset analüüsimeetodit, s.t uuritakse arvulisi suuruseid ja tõlgendatakse neid. Arvud võivad olla mingist katsest saadud mõõtetulemused, vaatlustulemused, küsitluse tulemuste kokkuvõtted jne. Nende arvude põhjal on uurimistöös vaja teha järeldusi ja need järeldused peavad olema põhjendatud.

Kuidas teha põhjendatud järeldusi? Kui mul on vaja võrrelda kahte suurust ja öelda, kas nad on erinevad, kas siis vaatan neid arve ja annan oma hinnangu, kas erinevus on piisavalt suur, et lugeda suuruseid tõesti erinevateks? Kui on tahan leida, kas üks tunnus mõjutab teist, kas siis uurin graafikuid ja avaldan arvamust, et tunnused on tugevalt seotud? Ka nii võib (ja mõnikord ei jäägi muud üle), kuid selliselt analüüsides on järeldused väga subjektiivsed. Üks inimene arvab, et erinevus on pigem suur, teine arvab, et mitte ja sinu uurimistöö kaotab oma usaldusväärsuse.

Siin tulebki mängu matemaatiline statistika. Matemaatiline statistika pakub meile objektiivseid meetodeid, millega rangelt tõestada oma uurimistöö hüpoteese. Järgnevalt vaatamegi mõningaid selliseid meetodeid. Statistilist analüüsi on võimalik teostada mitmete arvutiprogrammide abil. Levinumad on MS Excel, SPSS, R, SAS, Google Spreadsheet. Andmetöötlust kasutatakse näiteks küsitluste tulemuste analüüsimisel ja järelduste tegemisel.

Seda inimeste (või objektide) gruppi, kelle kohta tahame järeldusi teha, nimetatakse üldkogumiks. Kui üldkogum on liiga suur, et teda tervenisti uurida, uuritakse väiksemat osa, mida nimetatakse valimiks. Valimi moodustamine on üks kesksemaid küsimusi uuringute tegemisel, sest valimist sõltub järelduste usaldusväärsus. Üldine reegel on see, et valim peab olema juhuslik, s.t kõigil üldkogumi liikmetel peab olema võrdne võimalus valimisse sattuda. Kui see tingimus täidetud ei ole, siis ei ole tegelikult alust üldistada tehtavaid järeldusi üldkogumile.

Näiteks, kui küsitlus viiakse läbi JPG 11. klasside hulgas, ei tohiks tulemusi üldistada kogu koolile, sest valimis pole õpilasi kõigi klasside hulgast, vaid ainult 11. klasside hulgast. Ammugi ei tohiks tulemusi üldistada kogu Tartu linnale või Eesti gümnaasiumiõpilastele. Need tulemused kehtivad ainult JPG 11. klassi õpilaste kohta. Kui küsitlus viiakse läbi ühe konkreetse klassi õpilastega, ei tohiks ka neid tulemusi üldistada kogu lennule, vaid need kehtivad ainult selle klassi kohta.

Kui tahta saada kogu kooli õpilastele üldistatavaid tulemusi, peaks valimisse valima õpilasi kogu kooli õpilaste hulgast. Seda võib teha 1) juhuslikult (nt juhuslike arvude generaatori abil), 2) süstemaatiliselt (nt iga kümnes õpilane nimekirjast), 3) proportsionaalselt (igast klassist valida klassi suurusega proportsionaalne arv õpilasi juhuslikult).

Mida suurem valim, seda usaldusväärsemad on üldiselt tulemused. Siiski ei pea valim olema hiiglasuur ja juba üsna väikse valimiga võib teatud juhtudel saada üsna usaldusväärsed tulemused. See tuleneb valimi juhuslikkusest.

Andmete korrastamine

Kui oled läbi viinud küsitluse (või teostanud mõõtmisi), saad suure hulga toorandmeid, mida tuleks enne analüüsima hakkamist korrastada. Enamus arvutipõhiseid küsitlustarkvarasid annavad vastused tabeli kujul, kus küsimused (tunnused) jooksevad vasakult paremale ja erinevate vastajate (objektide) vastused ülevalt alla. Nii satub iga vastus (väärtus) ühte lahtrisse. See on päris mugav paigutus ja seda võiks järgida ka paberkujul ankeetide sisestamisel arvutisse.

Jälgi, et igas lahtris oleks ainult üks väärtus.
Jälgi, kas kõik vastused on kasutatavad. Kui mõne vastaja vastused on puudulikud, tühjad või selgelt ebatõenäolised, kustuta need vastused.
Jälgi, et tekstiliste andmete puhul oleks sama väärtuse puhul kasutatud sama vormi („Jaan Poska gümnaasium“ vs „Tartu Jaan Poska gümnaasium“).

Kodeerimine

Soovitav on vältida andmete sisestamist tekstina, sest see on aja- ja ruumimahukas, ning andmetest kaob ülevaatlikkus. Selle asemel võiks andmed kodeerida, s.t asendada vastused arvuliste väärtustega (nt „pole nõus“ = 0, „pigem pole nõus“ = 1, „pigem nõus“ = 2, „täiesti nõus“ = 3). Nii on neid ka lihtsam analüüsida.

Jälgi, et kood oleks kogu tabelis (veerus) ühesugune.
Juba arvutis olevate küsimustike vastuste puhul tasub kodeerimiseks uurida käsku Find and Replace (Ctrl + F). Samas on mõnikord targem jätta vastused tekstina, siis on näiteks graafikutel andmesildid juba teksti kujul olemas.

Kõige tülikam on analüüsida avatud küsimuste vastuseid, kuigi need annavad sageli väärtuslikku ja huvitavat infot. Üks võimalus on neist välja kirjutada levinumad või iseloomulikumad vastused. Kui tahta aga ka neist tervikuna täpsem ülevaade saada, tuleks ka avatud küsimuste vastused kodeerida ja püüda iga vastus paigutada mingi koodi alla (nt viide õpikeskkonnale = 1, viide õpetajale = 2, viide õppematerjalidele = 3 jne)

Andmete esitamine

Andmete ülevaatlikuks esitamiseks on mitu võimalust. Andmeid saab esitada

tabelina (sagedustabelina, kus on arvud, või jaotustabelina, kus on protsendid),
joonisena (tulpdiagramm, histogramm, sektordiagramm, joondiagramm) ,
teksti sees arvusid kirjeldades.

Millist kasutada, sõltub situatsioonist ja vajadusest. Oluline on, et esitus oleks ülevaatlik ja võimaldaks lugejal tulemustest kiiret arusaamist. Väga jämedalt võib öelda, et kasutada võiks teksti, kui esitletavaid arvulisi näitajaid on vaid paar tükki, joonist, kui on vaja näidata muutusi või suundumusi või kui tunnuse võimalikke väärtusi on rohkem kui kolm, ning tabelit, kui on vaja näidata täpset arvulist infot.

Huvitavad lisamaterjalid

Valim ja üldkogum
Praktiline andmeteadus (Tartu Ülikool)

Page updated

Report abuse