Analýza rozptylu
NALÝZA ROZPTYLU
Analýza rozptylu, ANOVA (z anglického Analysis of Variance), se v technické praxi používá buď jako samostatná technika, nebo jako postup, umožňující analýzu zdrojů variability u lineárních statistických modelů. Cílem je zjistit, které z kvalitativních nebo kvantitativních faktorů významně ovlivňují sledované veličiny. Nejde přitom o to jak ovlivňují, ale zda vůbec ovlivňují. Analýza rozptylu zjišťuje statistickou významnost rozdílu průměrů v podsouborech, podobně jako t-test, ale podsouborů může být více než dva. Podsoubory mohou být vymezeny jednou nezávislou proměnnou (one-way ANOVA) nebo více proměnnými.
V technické praxi se ANOVA uplatňuje jako samostatná technika v úlohách:
(a) Určení vlivu způsobu přípravy vzorků na výsledek analýzy.
(b) Určení vlivu přístroje, lidského faktoru a obsluhy na výsledek měření,
(c) Zpracování různých mezilaboratorních experimentů.
(d) Zpracování plánovaných experimentů, u kterých se systematicky sleduje vliv rozličných faktorů (teploty, času, koncentrace a dalších) na výsledek reakce či analýzy.
Před použitím analýzy rozptylu musí být ověřeny následující předpoklady o výběru:
1. Data mají normální rozdělení: náhodné chyby jsou náhodné veličiny s normálním rozdělením a střední hodnotou chyb rovnou nule.
2. Rozptyly sloupcových výběrů jsou stejné (homoskedasticita).
3. Každý sloupec je prostým náhodným výběrem ze svého souboru: každý prvek souboru má stejnou pravděpodobnost, že bude vybrán do výběru.
Podstatou analýzy rozptylu je rozklad celkového rozptylu dat na složky objasněné (známé zdroje variability) a složku neobjasněnou, o níž se předpokládá, že je náhodná. Rozdělíme celkový rozptyl závislé proměnné do dvou částí, tj. na variabilitu uvnitř skupin a variabilitu mezi skupinami dat.
Variabilita uvnitř skupin dat - popisuje variabilitu v jednotlivých skupinách dat. V podstatě se tedy jedná o to, jak se každá hodnota ve skupině liší od skupinového průměru.
Variabilita mezi skupinami - ukazuje jak se liší průměry jednotlivých skupin dat. Spočívá tedy v porovnání průměrů jednotlivých skupin s celkovým průměrem.
Následně se testují hypotézy o významnosti jednotlivých zdrojů variabilit. Prvním krokem analýzy rozptylu je určit, zda jde o model analýzy rozptylu s pevnými náhodnými nebo smíšenými efekty.
Vlastní postup analýzy rozptylu lze rozdělit do pěti kroků, jimiž jsou:
1. Odhad parametrů základního modelu ANOVA.
2. Testování jeho významnosti a konstrukce různých modelů.
3. Vyjádření složek rozptylů a testovaní jejich významnosti.
4. Ověření předpokladu normality a indikace silně vybočujících hodnot.
5. Interpretace výsledků s ohledem na zadání dat a jejich případné úpravy.
Vstupem je tabulka dat. obsahující pro jednotlivé sloupce čili úrovně A1, ..., AK faktoru A vždy ni, pozorování {yij}, i = 1, ...., K a j = 1.....n.. Pro všechny testy je obvykle uvažována hladina významnosti a = 0.05.
Postup obsahuje kroky:
1. Přípravu dat: Už přípravou dat lze zajistit větší věrohodnost dosažených výsledku.
(a) Velikost výběru je počet plných řádků. ANOVA byla původně odvozena za předpokladu, že četnosti ve sloupcích jsou shodné. V praxi je však tento předpoklad zřídka splněn. Stejně však platí, že čím více je toto pravidlo splněno, tím věrohodnější jsou výsledky. Lze analyzovat i malé výběry, 4 až 5 hodnot ve sloupci. Máme-li testovat všechny výběrové předpoklady, je třeba prvků ve sloupci více, ze statistického hlediska nejlépe 30 a více.
(b) Chybující hodnoty mohou způsobit vychýlení výsledků. V každém případě je poněkud nebezpečné analyzovat výběr s řadou chybějících hodnot.
(c) Typ dat: matematické pozadí F-testu požaduje, aby data byla spojitá. Kvůli zaokrouhlování při zápisu dat, jsou všechna data vlastně technicky vzato diskrétní. Požadavek spojitosti je proto na místě, jsou-li data hodně zaokrouhlovaná.
(d) Odlehlé hodnoty obecně způsobují zborcení F-testů. Je třeba prozkoumat data v grafech exploratorní analýzy dat EDA, často se užívá krabicový graf. Pak následuje vyšetření, zda se odlehlé hodnoty vyskytují pouze v jednom sloupci nebo i v ostatních. Je-li odlehlá hodnota v datech pouze jednou, je třeba ji odstranit. Pakliže ji v datech ponecháme, je třeba dal přednost neparametríckému testování, F-test by totiž mohl selhat.
2. Ověření výběrových předpokladů: Nestačí se soustředit na tabulku výsledku testování ANOVA. Je třeba pečlivě ověřit splnění základních předpokladů o výběru. Často data nemají ve všech sloupcích normální rozdělení a je třeba použít mocninnou (nebo logaritmickou) transformaci dat. Po transformaci pak data již vykazují normální rozdělení. l když je pouze jediný sloupec s nenormální rozdělením, transformace celého výběru přinese zlepšení výsledků.
(a) Náhodnost: metoda odběru vzorku by měla zajistit. Že každý prvek souboru má stejnou pravděpodobnost byl vybrán do výběru.
(b) Nezávislost: aplikací voň Neumannova testu ověříme nezávislost prvků výběru.
(c) Normalita: nejlépe je začít vyšetřením rankitového grafu odchylek od totálního průměru. Pak následuje řada testů normality. Síla těchto testů se zvyšuje s velikostí výběru. I když byla normalita potvrzena, prověříme velikost výběru, zda je možné brát výsledky testu za věrohodné.
(d) Homoskedasticita: aby bylo možně užít řadu statistických testů, je třeba ověřit, zda rozptyly sloupců jsou shodné (homoskedasticita). V krabicových grafech je sledována šířka krabic, zda je u všech sloupců stejná. Numericky lze ověřil homoskedaslicitu pomoci modifikovaného Levenova testu.
3. Průměry a efekty úrovní: Provede se výpočet parametrů.
4. Volbu statistických testů významnosti faktoru A v tabulce ANOVA: Je sestavena tabulka ANOVA a proveden F-test významnosti efektů faktoru A. Předem je třeba ověřit výběrové předpoklady a zvolit správný test:
(a) Normalita a homoskedasticita dat: Aplikujeme F-test.
(b) Normalita a heteroskedasticita dat: Pokusíme se stabilizovat rozptyl mocninnou transformací (nebo logaritmickou). Pak užijeme lest shodnosti středních hodnot u dvou výběrů při nehomogenitě rozptylů. Nelze užít ani Kruskalův-Wallisův test, protože tento test také předpokládá shodné rozptyly obou výběrů.
(c) Nenormalita a homoskedasticita dat: užijeme Kruskalův-Wallisův test.
(d) Nenormalita a heteroskedasticita dat: když nejde data transformovat za účelem stabilizace rozptylu a zajištění normality, užijeme Kolmogorův-Smirnovův test, který testuje obojí, průměry i rozptyly současně. Jelikož však už víme z Levenova testu, že rozptyly nejsou stejné, je otázkou, zda Kolmogorův-Smirnovův test přinese něco nového.
5. Testování hypotéz: Výklad analýzy rozptylu je snadný. Jednoduše sledujeme F-test. Je-li hodnota spočtené hladiny významnosti menší než předvolená hladina významnosti a (obyčejné 0.05), můžeme potvrdit, že přinejmenším dva sloupcové průměry jsou odlišné.
F-test je běžný test pro statistické porovnání směrodatných odchylek a rozptylů dat dvou souborů (může být použit i pro testování více než jedné množiny).
Hypotézy F-testu:
Nulová – není žádný rozdíl mezi populačními průměry
Alternativní – populační průměry se navzájem liší
F-test tedy umožňuje ověření nulové hypotézy proti alternativní hypotéze.
Běžná tabulka F-testu poskytuje hodnotu F a P. Stejně jako u t-testu, i zde platí, že čím menší je hodnota P, tím větší pravděpodobnost rozdílu směrodatných odchylek. Data, která budou testována F-testem musí být pro test vybrána náhodným výběrem a musí být nezávislé. Jestliže data jednoho nebo obou souborů, které mají být analyzovány, pocházejí z populace jejíž rozdělení neodpovídá předpokladům normality, pak F-test provedený na populačních datech může poskytnout zavádějící výsledky, neměl by být tedy použit. Jestliže nedostaneme výrazný rozdíl mezi odchylkami, nemůžeme říct, že rozptyly jsou totožné, ale pouze že nejsou rozdílné.
Vzorce F-testu:
Testová statistika: F = poměr nestranných odhadů společného rozptylu. Podle nulové hypotézy by podíl F měl být přibližně roven 1. Pokud je významně větší než 1 tak to naznačuje, že mezi skupinami existuje větší rozdíl než uvnitř skupin a naopak
1. odhad: faktorový rozptyl
2. odhad: reziduální rozptyl
n: počet hodnot, k: počet skupin
Testová statistika:
Výstup v Excelu:
Popis hodnot v tabulce:
n SS mezi výběry - vážený součet druhých mocnin rozdílů každého skupinového průměru a celkového průměru.
n SS pro všechny výběry - součtem druhých mocnin rozdílů hodnot a příslušného skupinového průměru.
n Df pro skupinový součet Sa: počet skupin - 1
n Df pro reziduální součet Se: počet pozorování - počet skupin
n MS=SS/Df (Mean square – průměrné čtverce)
n F=MS mezi skupinami / MS uvnitř skupin
n P – pravděpodobnost
n F krit. – kritická hodnota F (pro dané stupně volnosti najdeme v tabulce)
Pozn.: Pro výše uvedený výstup v Excelu je třeba mít nainstalovaný modul Analýza dat.
Rozhodovací pravidlo:
Pro danou hladinu alfa zamítneme H0, jestliže je vypočtená hodnota F větší než tabulková (kritická) a naopak
n analýza rozptylu je silnější metodou pro statistické testování souborů dat, než t-test popř. f-test
n její výsledek nám dává informaci o tom jestli mezi parametry souborů dat existuje statisticky významný rozdíl nebo ne. V případě existence rozdílu už nám ale neříká nic o tom čím je tento rozdíl způsoben.
n dnes je nepostradatelnou součástí každého statistického software
n velké využití má ve výrobní sféře při statistické kontrole a zlepšování jakosti, v medicíně atd.