9. ESTATISTIKA

TALDE LANA ARIKETAK

Gai honetan estatistikaren oinarrizko kontzeptu batzuk besterik ez ditugu ikusiko, ez dugu gai honetan asko sakonduko maila honetan. Has gaitezen:

1. HASIERAKO KONTZEPTUAK (DEFINIZIOAK):

    • POPULAZIOA: aztertu nahi dugun elementu guztiek osatzen duten multzoa.
    • LAGINA: Benetan aztertuko dugun elementuek osatzen duten multzoa.
    • INDIBIDUOA: Aztertu nahi dogun elementu bakoitza.

Adibidez, Eusko Jaurlaritzak 2016an egindako inkesta soziolinguistikoan POPULAZIOA hurrengo taulan ikusten dana da:

Hau da POPULAZIOA 3 milloi inguruko pertsona dira, baina danei galdetzea ezinezkoa denez, inkesta hau egiteko erabilitako LAGINA 8.200 pertsona izan dira, hau da 8.200 inkesta egin ziran, eta lurraldearen arabera honela banatu dira: 4.200 inkesta Araban, Bizkaian eta Gipuzkoan, 2.000 Nafarroan eta 2.000 Iparraldean. Kasu honetan POPULAZIOAREN %0,28 a ingurukoa da LAGINA.

2. ALDAGAI MOTAK ETA BAKOITZARI HOBEKIEN DATORKION GRAFIKA.

Estatistikan erabiltzen diren aldagaiak bi talde handitan banatu leizke:

  • ALDAGAI KUALITATIBOAK: kasu honetan aldagaiek neurtzen dutena ez du zenbakizko baliorik emango. adibidez koloreak, saskibaloi taldeak, indar politikoak,... Aldagai hauek hobekien islatzen daben grafika SEKTORE DIAGRAMA da, nahiz eta grafika hau beste aldagai guztiak ere era egoki baten islatu ditzakeen. Honen adibide bat hurrengo irudian ikus dezakezue, galdetuetakoek erabiltzen duten ordenagailu bidezko programa erantzuten dutena:
  • ALDAGAI KUANTITATIBOAK: hauen neurketak zenbakizko balio bat emango dute, baina bi eratakoak izan daitezke:
      1. DISKRETUAK: balio jakin batzuk besterik hartu ditzaketenak, adibidez pertsona kopurua, txitxirio aleak, ... eta berauek islatzeko grafikarik egokiena barra diagrama da. Hurrengo adibidean Euskal autonomi elkartean sartutako bidaiari kopurua ikus daiteke, aldagai diskretua urtea izanik:
      1. JARRAITUAK: hauek, euren definizio eremutan, edozein balio erreal har dezakete, adibidez pisua, tenperatura edo ondorengo HISTOGRAMAN agertzen den pertsonen altuera:

3. PARAMETRO ESTATISTIKOAK.

Baina gehien interesatzen zaizkigunak parametro estatistikoak dira. Hauek ere bio talde nagusitan banatuko ditugu:

  • ZENTRALIZAZIO NEURRIAK: parametro hauek datu guztien isla izan nahi den balio bat ematen saiatzen da, baina ez digute datua homogeneo edo heterogeneoak diren esango, horretarako beste neurri batzuk aurkeztuko ditugu geroago. Hauek dira guk erabiliko ditugun zentralizazio neurriak:
  1. BATAZ BESTEKOA: Bataz besteko ezberdin asko daude, guztiek datu talde baten balio adierazgarri edo gutxi gora beherakoa ematen saiatzen dira, baina guk bataz besteko aritmetiko sinplea erabiliko dugu, erabiliena dena bestalde. Honela kalkulatuko dugu:
  1. MEDIANA: Datuak txikienetik handienera ordenatzean guztien erdien aurkituko dugun balioa da.
  2. MODA: gehien errepikatzen den datua da.
  • DESBIDERATZE NEURRIAK: aurreko neurriek ez digute esaten datuak elkarrengandiak oso hurbil dauzenez edota eurek emandako balioak oso ezberdinak diran. Horretarako bereziki datu bakoitza bataz bestekotik hurrun edo gertu dagoen kalkulatuko dugu. Hauek dira guk erabiliko ditugun zentralizazio neurriak:
  1. IBILBIDEA: Datu handienaren eta txikienaren arteko distantzia, hau da, datu maximoaren balioari minimoaren balioa kentzen diogunean lortzen dugun balioa.
  2. BATAZ BESTEKO DESBIDERATZEA: Lehenengo datu bakoitzaren distantzia bataz bestekoarekiko kalkulatuko dugu. Horretarako, lehen datuari bataz besteko balioa kenduko diogu bien arteko distantzia jakiteko, baina distantzia beti izan behar denez positiboa eta kenketa ez, orduan kenketaren balio absolutua kalkulatu behar dugu, honela:
  1. . Baina datu bakoitzak bataz bestearekiko distantzia bat edukiko du, eta euren bataz bestekoa kalkulatu nahi badogu, guztiak batu beharko ditugu eta datu kopuruarekin zatitu, beraz datu kopurua n bada:
  1. BARIANTZA: Parametro honek aurrekoaren ideia bera du, baina distantzia beharrean hone karratuarekin egiten du, honela:

4. DESBIDERATZE TIPIKOA: Hau gehien erabiliko dugun parametroa da eta Bariantzaren erroa eginez kalkulatzen da:

Guzti hau eskuz kalkulatzea alperrikako lana da XXI. mendean egiten ikasteko ez bada, beraz ordenagailua eta kalkulu horriak erabiliko ditugu horretarako. Egokiena LibreOfficeren Calc dela deritzot eta horretarako José Trujillo Carmonak egindako lanak programa honen sekretu guztiak erakusten ditu:

Eta euskaraz bideoren bat egiten atrebitzen ez nazen arte erderaz zein ingelesez ipini beharko ditut aurkitzen ditudan interesgarriak: