Analýza rozptylu a její předpoklady I

Definice úlohy

Mezi uživateli statistických metod je rozšířen předpoklad, že normalita dat je u testů, které ji předpokládají, zásadní podmínka použití testu. Tento článek popisuje, že alespoň pro analýzu rozptylu to není pravda a normalita není zásadní, zásadní je ale požadavek na shodu rozptylu. Zjištění vycházejí z výsledků testů nad daty simulovaných z různých rozdělení. Kromě samotné analýzy rozptylu byly zkoušeny i její robustní varianty a také neparametrický Kruskalův-Wallisův test. Pro pragmaticky založeného čtenáře bude dostatečné seznámit se ze závěry simulace, zvídavější čtenář se může dočíst více o samotné simulaci.

Nejprve ale shrňme, co se testem analýzy rozptylu testuje a jaké jsou jeho předpoklady. Test se používá v situaci, kdy chceme potvrdit, že se zvolená proměnná mezi skupinami liší. Např. nás zajímá, zda se liší výsledek maturit žáků mezi jednotlivými druhy středních škol. Nulová hypotéza testu tvrdí, že střední hodnoty, jež se odhadují průměrem, jsou ve všech skupinách stejné. Alternativní hypotéza připouští alespoň u jedné skupiny odlišnou hodnotu. Z dat se počítá testové kritérium, které ukazuje míru nesplnění nulové hypotézy, a z něj se počítá signifikance. Ta se dá interpretovat jako pravděpodobnost, s jakou je spočtená odchylka od nulové hypotézy způsobena jen náhodou. Přesněji pravděpodobnost, že odchylka je alespoň tak veliká, jak se spočítalo z dat.

Standardně se podle zvyku pravděpodobnost pod 5 % považuje jako příliš malá a tvrdíme, že odchylka není způsobena jen náhodou, a že nulová hypotéza neplatí. Aby byla signifikance spočtena správně musí data splňovat určité předpoklady.

  • Nezávislost případů – jednotlivé případy spolu nesouvisejí, předpoklad není součástí simulace a jeho splnění analytik odhadne z typu dat. Data by neměla tvořit skupiny nebo časové řady.
  • Shoda rozptylů ve skupinách (homoskedasticita) – předpokládá se, že testovaná proměnná má stejný rozptyl ve všech skupinách. Při platnosti alternativní hypotézy se liší jen střední hodnoty. Rozptyly musí být vždy stejné. Různé rozptyly ve skupinách se nazývají heteroskedasticita.
  • Normalita ve skupinách – předpokládá se, že data pocházejí z normálního rozdělení. Normalita se týká každé skupiny zvlášť, dohromady data normální rozdělení vůbec mít nemusejí.

Hlavní závěry

ANOVA

Základní výsledky simulace pro analýzu rozptylu jsou shrnuty v následujících bodech. Data byla nasimulována při platnosti nulové hypotézy a pro tři skupiny. Velikost simulovaného souboru byla 60 případů. Vždy se porovnávala teoretická signifikance spočtená podle vzorce se skutečnou (empirickou) hodnotou zjištěnou ze simulovaných dat.

  • nesplněná normalita má na signifikanci jen malý vliv
    • symetrické rozdělení se prakticky neliší od normálního s růstem počtu případů se signifikance blíží ke správné hodnotě i u výrazně nesymetrických rozdělení
    • u sešikmení doprava je signifikance mírně podhodnocena
      • podhodnocení roste se šikmostí
      • při stejné šikmosti ve skupinách nezávisí na relativní velikosti skupin
      • při různých šikmostech je lepší, když šikmější skupiny obsahují více případů
  • neshoda rozptylů má zásadní vliv na signifikanci
    • při heteroskedasticitě je skutečná signifikance výrazně odlišná, vyšší i nižší malý vliv má i šikmost
    • záleží na relativní velikosti skupin
      • nejlepší výsledky při rovnoměrně velikých skupinách
      • pokud mají menší skupiny menší rozptyl, je signifikance podhodnocena a naopak
      • větší celkový počet případů signifikanci nezlepší

Na rozdíl od všeobecně rozšířené představy není normalita při splnění rovnosti rozptylů zásadní, i výrazně sešikmená data rychle konvergují s růstem počtu případů ke správným hodnotám signifikance. Například při šikmosti 3 a 20 případech v každé skupině je signifikance podhodnocena jen o půl procentního bodu. S dostatečnou mírou opatrnosti lze předpokládat, že když pro nenormální data vyjde signifikance pod 1 %, bude i skutečná signifikance pod 5%. Naopak, vyjde-li nad 10 %, bude i skutečná signifikance nad 5 %.

Rozdílné rozptyly (heteroskedasticita) mají na signifikanci větší dopad a situace se nezlepší ani s růstem počtu případů. Heteroskedasticita je ještě přijatelná při normálním, resp. symetrickém rozdělení a zároveň stejném počtu případů ve skupinách, např. při rozptylech 1, 2 a 4 a 20 případech ve skupině je signifikance nadhodnocena asi o 2 procentní body. Takové konstelace dat jsou ale v praxi vzácné. Typické jsou situace, kdy se k heteroskedasticitě přidá nenormalita nebo různá velikost skupin. Pak jsou spočtené signifikance daleko od skutečných. Výjimkou není ani situace, kdy skutečná signifikance není 5%, jak udává výpočet, ale 20 %. Test vede ke zcela chybnému zamítnutí nulové hypotézy.

Robustní testy analýzy rozptylu (Welchův a Brownův-Forsytheův test)

Co tedy dělat, pokud se rozptyly nerovnají? Nejjednodušší variantou je dnes spočítat robustní testy analýzy rozptylu, které shodu rozptylu nepředpokládají. V SPSS Statistics je implementován Welchův a Brownův-Forsytheův test. Následující body shrnují jejich vlastnosti.

  • při heteroskedasticitě a zároveň normalitě testy vracejí správné signifikance
    • Welchův test dává správnější signifikanci než Brownův-Forsytheův
    • při shodě rozptylů a normalitě se testy neliší od klasického testu ANOVA
  • testy jsou citlivější na nenormalitu dat než ANOVA
    • u symetrického rozdělení se příliš neliší od normálního
    • testy jsou citlivější na šikmá rozdělení
      • skutečná signifikance je obvykle vyšší, rozdíl závisí na šikmosti a kombinaci velikosti skupin a rozptylů
      • při shodě rozptylů a nenormalitě je lepší klasická ANOVA než Brownův-Forsyteův a ten je lepší než Welchův
      • při shodě rozptylů se spočtená signifikance robustních testů blíží správné s růstem počtu případů
      • při neshodě rozptylů jsou lepší robustní testy, ale ani růst případů nevede ke správné signifikanci

Stručně lze shrnout, že testy opravdu vyřeší heteroskedasticitu, ale jsou citlivější na předpoklad normality dat, který je s nimi spojen. Jsou citlivější než klasická ANOVA. Ve vzácných případech, kdy data nejsou normálně rozdělena, ale mají stejné rozptyly je vhodnější klasická ANOVA. Protože je ale nenormalita obvykle spojena i s heteroskedasticitou, jsou obvykle lepší variantou robustní testy. Přesto je v takovém případně nutno vzít v úvahu, že skutečná signifikance se liší od té vypočítané podle testu, místo 5% může být až 10 %. Nicméně ve většině případů, lze učinit závěry i za této nepříznivé situace. Signifikance často vycházejí při zamítnutí nulové hypotézy velmi nízké, typicky nižší než 0,1%. V takovém případě lze spolehlivě předpokládat, že ani správná hodnota signifikance nepřekročí 5%, v nejhorším případě bude o řád větší. Pokud ale signifikance vyjde mírně pod 5 % nelze úlohu spolehlivě vyřešit.

Kruskalův-Wallisův test (KW)

Tradičním doporučením při nenormalitě nebo heteroskedasticitě je použít neparametrický Kruskalův-Wallisův test, dále jen KW test. Následující body shrnují výsledky simulace.

  • heteroskedasticita a různá šikmost má velmi silný vliv na signifikanci
    • skutečná signifikance se liší od teoretické nejvíce z porovnávaných testů
    • skutečná signifikance je typicky vyšší, někdy i 35 % místo 5 %
  • při homoskedasticitě a stejně sešikmených rozděleních dosahuje test lepších signifikancí než klasická ANOVA a robustní testy

Z uvedených závěrů vyplývá, že při heteroskedasticitě nebo i různých šikmostech ve skupinách je KW test zcela nevhodný. Je to horší varianta než obyčejná ANOVA. Proč se tedy tak často doporučuje a v některých oborech je standardem při nenormalitě okamžitě použít KW test? Doporučení patrně plyne z chybné interpretace testu. KW test nemá nulovou hypotézu rovnost středních hodnot, ale shodu rozdělení ve skupinách. KW test tedy testuje, zda jsou celá rozdělení shodná, nejen, zda mají rozdílnou střední hodnotu. Skupiny se mohou lišit rozptylem, šikmostí nebo i dalšími parametry rozdělení, to vše KW test zahrnuje do alternativní hypotézy. KW test funguje správně, ale je špatně interpretován. Pro test o shodě středních hodnot ho lze použít jen, pokud je zaručeno, že ostatní vlastnosti rozdělení se neliší, a rozdělení jsou jen posunuta. V tom případě je při nenormalitě lepší variantou než ostatní testy.

Závěrečné doporučení na základě simulace

Neuspokojivé řešení situace při současné nenormalitě i heteroskedasticitě a odlišná intepretace KW testu otevírají možnost podívat se na srovnání skupin komplexněji. Pokud nás zajímá odlišnost skupin může být porovnávání jen středních hodnot příliš omezující. Střední hodnota dobře reprezentuje rozdělení jen u těch symetrických a i u nich může být různý rozptyl ve skupinách cenným poznatkem. Na shodu skupin je proto vhodné se podívat z více úhlů: graficky znázornit rozložení hodnot ve skupinách (populační pyramida), provést test středních hodnot (ANOVA, robustní ANOVA) i rozptylů (Levenův test) a otestovat i shodu celých rozdělení (KW test). Z výsledků testů a grafů si lze pak učinit komplexní závěr o rozdílnosti skupin. Nicméně, pokud je třeba přece jen provést a publikovat test o středních hodnotách, lze vhodný test zvolit podle následujícího schématu.

  • homoskedasticita
    • normalita => libovolný
    • nenormální symetrické rozdělení => ANOVA
    • šikmé rozdělení se stejnou šikmostí => Kruskal-Wallis
    • šikmé rozdělení s různou šikmostí => ANOVA
  • heteroskedasticita
    • normalita => Welch
    • symetrické rozdělení => Brown-Forshyte případně Welch
    • šikmé rozdělení => Brown-Forshyte nebo Welch (signifikance není správně).

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Ondřej Brom
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů