Hierarchické modely: Analýza dat se skupinovou strukturou či opakovaná měření

V mnoha oblastech datové analýzy se setkáváme s daty, která nejsou zcela nezávislá. Žáci jsou součástí tříd, zaměstnanci pracují ve firmách nebo jsou hodnoty měřeny opakovaně na jednom pacientovi.  Tradiční lineární modely často tyto struktury a závislosti ignorují. Pokud bychom jejich výsledky analyzovali běžnými metodami, mohli bychom získat zkreslené závěry – například přeceňovat vliv některých faktorů nebo podhodnocovat chybovost.

Právě proto vznikly hierarchické (multilevel) modely, které umožňují zachytit variabilitu mezi skupinami i uvnitř skupin.

Kdy hierarchický model použít?

Představte si tyto situace:

  • Ve škole: Chcete zjistit, zda domácí příprava pomáhá žákům k lepším výsledkům testu. Jenže výsledky jsou ovlivněny navštěvovanou třídou.
  • V medicíně: Sledujete účinnost léčby, ale pacienti jsou rozděleni do různých nemocnic.
  • V HR: Hodnotíte spokojenost zaměstnanců, přičemž každý tým má jiného vedoucího a jinou firemní kulturu.

Všechny tyto příklady mají společné to, že jednotlivá pozorování nejsou nezávislá. Žáci z jedné třídy mohou mít k sobě blíž než k žákům z jiné, stejně tak pacienti z jedné nemocnice či zaměstnanci v týmu.

Princip hierarchického modelu

Hierarchický model bere v úvahu, že data mají více úrovní:

  • Úroveň 1: jednotlivci (žáci, pacienti, zaměstnanci).
  • Úroveň 2: skupiny (třídy, nemocnice, týmy).
  • Úroveň 3 a více: vyšší celky (školy, regiony, odvětví).

Díky tomu model umožňuje, aby se parametry, jako je průměrný výsledek nebo vliv určité proměnné, lišily mezi skupinami. Tento přístup se hodí vždy, když předpokládáme, že data uvnitř skupiny jsou podobnější než data mezi skupinami, což se ověří v rámci modelu.

Model pak rozlišuje dva typy efektů:

  1. Fixed effects (fixní efekty) – platí pro všechny jednotky (např. vliv počtu hodin učení na výsledky testu).
  2. Random effects (náhodné efekty) – liší se mezi skupinami (např. průměrné výsledky jednotlivých tříd nebo síla vlivu učení).

Náhodné efekty: intercept a sklon

Hierarchické modely využívají tzv. náhodné efekty:

  • Náhodný intercept – každá skupina má svůj vlastní průměr.

Příklad: průměrné výsledky testu se liší mezi třídami – žáci ve třídě A mají pro stejné hodnoty prediktorů v průměru 60 bodů, ve třídě B 55 bodů a ve třídě C 65 bodů.

  • Náhodný sklon – každá skupina má vlastní vliv prediktoru.

Příklad: vliv hodin domácí přípravy se liší mezi třídami – někde hodina učení přidá 5 bodů, jinde jen 2 body.

Kombinace obou tvoří model s náhodným interceptem i sklonem, který dokáže zachytit reálné rozdíly mezi skupinami, a přitom využít informace z celé populace.

Intraclass Correlation Coefficient (ICC)

Jedním z prvních kroků při analýze hierarchických dat je výpočet ICC (intraclass correlation coefficient), který ukazuje, kolik procent variability vysvětlují rozdíly mezi skupinami.

  • Nízké ICC (např. 0,05) → většina variability je mezi jednotlivci, skupiny nehrají velkou roli.
  • Vysoké ICC (např. 0,30 a více) → skupiny mají zásadní vliv, hierarchický model je nezbytný.


A přemýšlíte, jestli je regrese opravdu dokáže vystihnout?

Na webináři Statistika ke kávě – Hierarchické modely si ukážeme, proč klasické modely selhávají, když jsou pozorování „vnořená“. Dozvíte se, jak hierarchické modely lépe zachytí rozdíly mezi skupinami i uvnitř nich a jak díky nim získáte spolehlivější závěry.

🗓️ 29. 9. 2025, 14:00 | Zdarma online

➡️ Přihlaste se ještě dnes.


Praktické příklady využití

Žáci ve třídách

Chceme analyzovat, jak domácí příprava ovlivňuje výsledky testu.

  • Level 1: jednotliví žáci (hodiny učení).
  • Level 2: třídy (učitel, klima).
TřídaOdhad interceptuOdhad sklonu
A605
B552
C654

Interpretace:

Třída A začíná průměrně 60 body a každá hodina přidá 5 bodů. Třída B začíná pod průměrem a vliv učení je slabší. Třída C má vyšší počáteční skóre a střední efekt učení.

Hierarchický model nám umožňuje:

  • zjistit průměrný sklon týkající se všech žáků, bez ohledu na třídu
  • odhadnout, zda rozdíly mezi třídami jsou statisticky významné
  • identifikovat třídy, kde je potřeba více podpory

Pacienti v nemocnicích

Opakovaná měření krevního tlaku pacientů ukazují, že:

  • Náhodný intercept → některé nemocnice mají vyšší nebo nižší průměrný tlak.
  • Náhodný sklon → účinnost léčby se liší mezi nemocnicemi.

Díky hierarchickému modelu lze odhadnout, která nemocnice funguje efektivněji, a zároveň oddělit individuální rozdíly pacientů od rozdílů mezi nemocnicemi.

Zaměstnanci ve firmách

Analyzujeme spokojenost zaměstnanců v různých firmách:

  • Náhodný intercept → firmy se liší průměrnou spokojeností.
  • Náhodný sklon → vliv platu nebo benefitů na spokojenost se liší mezi firmami.

Tento přístup umožňuje managementu cíleně intervenovat tam, kde vlivy na spokojenost nejsou silné, a lépe porozumět dynamice uvnitř firmy.

Praktické otázky, na které hierarchické modely odpoví

  • Jak moc se liší výsledky žáků mezi třídami a co vysvětluje tyto rozdíly?
  • Má motivace učitele či výuková metoda větší vliv než domácí příprava?
  • Proč je léčba účinná v jedné nemocnici více než v jiné?
  • Jak se liší vliv platu na spokojenost zaměstnanců mezi firmami?

Jak se modely odhadují

Hierarchické modely vyžadují speciální odhad parametrů, protože kombinují fixed effects (celopopulační efekty) a random effects (náhodné odchylky skupin).

Hlavní metody:
  1. Maximum Likelihood (ML) – hledá parametry, které nejpravděpodobněji vysvětlují data.
  2. Restricted Maximum Likelihood (REML) – lepší pro odhad variancí náhodných efektů.
  3. Bayesovský přístup – umožňuje vložit předchozí znalosti a získat rozdělení možných hodnot parametrů.

Testování a porovnávání modelů:

  • Likelihood ratio test (LRT) – testuje, zda složitější model (např. s náhodným sklonem) zlepšuje predikci oproti jednoduššímu modelu.
  • AIC/BIC – statistiky, které porovnávají kvalitu modelu při různém počtu parametrů (nižší hodnota = lepší model).

Pro odhad hierarchických modelů lze využít řadu nástrojů:

  • Jazyk R: nmle, lme4 (funkce lmer, glmer), brms (Bayesovské modely)
  • SPSS: funkce MIXED
  • Python: statsmodels, pymer4

Shrnutí

Hierarchické modely jsou užitečné všude, kde:

  • data mají skupinovou strukturu,
  • efekty prediktorů se mohou lišit mezi skupinami,
  • chceme oddělit vliv jednotlivce a vliv skupiny.

Díky nim tak můžete přesněji predikovat výsledky, identifikovat silné a slabé skupiny a pochopit dynamiku dat v reálných situacích.

Hierarchické modely tak představují mocný nástroj pro analytiky, výzkumníky i manažery, kteří chtějí pracovat s daty na hlubší úrovni než umožňuje klasická lineární regrese.


Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Ondřej Brom
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *