Definice úlohy
Mezi uživateli statistických metod je rozšířen předpoklad, že normalita dat je u testů, které ji předpokládají, zásadní podmínka použití testu. Tento článek popisuje, že alespoň pro analýzu rozptylu to není pravda a normalita není zásadní, zásadní je ale požadavek na shodu rozptylu. Zjištění vycházejí z výsledků testů nad daty simulovaných z různých rozdělení. Kromě samotné analýzy rozptylu byly zkoušeny i její robustní varianty a také neparametrický Kruskalův-Wallisův test. Pro pragmaticky založeného čtenáře bude dostatečné seznámit se ze závěry simulace, zvídavější čtenář se může dočíst více o samotné simulaci.
Nejprve ale shrňme, co se testem analýzy rozptylu testuje a jaké jsou jeho předpoklady. Test se používá v situaci, kdy chceme potvrdit, že se zvolená proměnná mezi skupinami liší. Např. nás zajímá, zda se liší výsledek maturit žáků mezi jednotlivými druhy středních škol. Nulová hypotéza testu tvrdí, že střední hodnoty, jež se odhadují průměrem, jsou ve všech skupinách stejné. Alternativní hypotéza připouští alespoň u jedné skupiny odlišnou hodnotu. Z dat se počítá testové kritérium, které ukazuje míru nesplnění nulové hypotézy, a z něj se počítá signifikance. Ta se dá interpretovat jako pravděpodobnost, s jakou je spočtená odchylka od nulové hypotézy způsobena jen náhodou. Přesněji pravděpodobnost, že odchylka je alespoň tak veliká, jak se spočítalo z dat.
Standardně se podle zvyku pravděpodobnost pod 5 % považuje jako příliš malá a tvrdíme, že odchylka není způsobena jen náhodou, a že nulová hypotéza neplatí. Aby byla signifikance spočtena správně musí data splňovat určité předpoklady.
Hlavní závěry
ANOVA
Základní výsledky simulace pro analýzu rozptylu jsou shrnuty v následujících bodech. Data byla nasimulována při platnosti nulové hypotézy a pro tři skupiny. Velikost simulovaného souboru byla 60 případů. Vždy se porovnávala teoretická signifikance spočtená podle vzorce se skutečnou (empirickou) hodnotou zjištěnou ze simulovaných dat.
Na rozdíl od všeobecně rozšířené představy není normalita při splnění rovnosti rozptylů zásadní, i výrazně sešikmená data rychle konvergují s růstem počtu případů ke správným hodnotám signifikance. Například při šikmosti 3 a 20 případech v každé skupině je signifikance podhodnocena jen o půl procentního bodu. S dostatečnou mírou opatrnosti lze předpokládat, že když pro nenormální data vyjde signifikance pod 1 %, bude i skutečná signifikance pod 5%. Naopak, vyjde-li nad 10 %, bude i skutečná signifikance nad 5 %.
Rozdílné rozptyly (heteroskedasticita) mají na signifikanci větší dopad a situace se nezlepší ani s růstem počtu případů. Heteroskedasticita je ještě přijatelná při normálním, resp. symetrickém rozdělení a zároveň stejném počtu případů ve skupinách, např. při rozptylech 1, 2 a 4 a 20 případech ve skupině je signifikance nadhodnocena asi o 2 procentní body. Takové konstelace dat jsou ale v praxi vzácné. Typické jsou situace, kdy se k heteroskedasticitě přidá nenormalita nebo různá velikost skupin. Pak jsou spočtené signifikance daleko od skutečných. Výjimkou není ani situace, kdy skutečná signifikance není 5%, jak udává výpočet, ale 20 %. Test vede ke zcela chybnému zamítnutí nulové hypotézy.
Robustní testy analýzy rozptylu (Welchův a Brownův-Forsytheův test)
Co tedy dělat, pokud se rozptyly nerovnají? Nejjednodušší variantou je dnes spočítat robustní testy analýzy rozptylu, které shodu rozptylu nepředpokládají. V SPSS Statistics je implementován Welchův a Brownův-Forsytheův test. Následující body shrnují jejich vlastnosti.
Stručně lze shrnout, že testy opravdu vyřeší heteroskedasticitu, ale jsou citlivější na předpoklad normality dat, který je s nimi spojen. Jsou citlivější než klasická ANOVA. Ve vzácných případech, kdy data nejsou normálně rozdělena, ale mají stejné rozptyly je vhodnější klasická ANOVA. Protože je ale nenormalita obvykle spojena i s heteroskedasticitou, jsou obvykle lepší variantou robustní testy. Přesto je v takovém případně nutno vzít v úvahu, že skutečná signifikance se liší od té vypočítané podle testu, místo 5% může být až 10 %. Nicméně ve většině případů, lze učinit závěry i za této nepříznivé situace. Signifikance často vycházejí při zamítnutí nulové hypotézy velmi nízké, typicky nižší než 0,1%. V takovém případě lze spolehlivě předpokládat, že ani správná hodnota signifikance nepřekročí 5%, v nejhorším případě bude o řád větší. Pokud ale signifikance vyjde mírně pod 5 % nelze úlohu spolehlivě vyřešit.
Kruskalův-Wallisův test (KW)
Tradičním doporučením při nenormalitě nebo heteroskedasticitě je použít neparametrický Kruskalův-Wallisův test, dále jen KW test. Následující body shrnují výsledky simulace.
Z uvedených závěrů vyplývá, že při heteroskedasticitě nebo i různých šikmostech ve skupinách je KW test zcela nevhodný. Je to horší varianta než obyčejná ANOVA. Proč se tedy tak často doporučuje a v některých oborech je standardem při nenormalitě okamžitě použít KW test? Doporučení patrně plyne z chybné interpretace testu. KW test nemá nulovou hypotézu rovnost středních hodnot, ale shodu rozdělení ve skupinách. KW test tedy testuje, zda jsou celá rozdělení shodná, nejen, zda mají rozdílnou střední hodnotu. Skupiny se mohou lišit rozptylem, šikmostí nebo i dalšími parametry rozdělení, to vše KW test zahrnuje do alternativní hypotézy. KW test funguje správně, ale je špatně interpretován. Pro test o shodě středních hodnot ho lze použít jen, pokud je zaručeno, že ostatní vlastnosti rozdělení se neliší, a rozdělení jsou jen posunuta. V tom případě je při nenormalitě lepší variantou než ostatní testy.
Závěrečné doporučení na základě simulace
Neuspokojivé řešení situace při současné nenormalitě i heteroskedasticitě a odlišná intepretace KW testu otevírají možnost podívat se na srovnání skupin komplexněji. Pokud nás zajímá odlišnost skupin může být porovnávání jen středních hodnot příliš omezující. Střední hodnota dobře reprezentuje rozdělení jen u těch symetrických a i u nich může být různý rozptyl ve skupinách cenným poznatkem. Na shodu skupin je proto vhodné se podívat z více úhlů: graficky znázornit rozložení hodnot ve skupinách (populační pyramida), provést test středních hodnot (ANOVA, robustní ANOVA) i rozptylů (Levenův test) a otestovat i shodu celých rozdělení (KW test). Z výsledků testů a grafů si lze pak učinit komplexní závěr o rozdílnosti skupin. Nicméně, pokud je třeba přece jen provést a publikovat test o středních hodnotách, lze vhodný test zvolit podle následujícího schématu.
Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.