Když průměr nestačí: Metoda Kaplan-Meier jako nástroj pro přesnější rozhodnutí

Metody analýzy délky života se užívají v situacích, kdy sledujeme délku trvání jevů, resp. dobu do výskytu určité události. Touto událostí může být například úmrtí pacienta, vznik poruchy výrobku, odchod zákazníka ke konkurenci nebo ukončení smlouvy. Metoda se tedy uplatňuje v medicíně, ekonomii, technických oborech i marketingu.

Specifickým rysem těchto dat je skutečnost, že u některých sledovaných případů během doby pozorování k dané události nedojde. Například pacient může být na konci studie stále bez příznaků nebo zákazník stále využívá danou službu. Takové případy označujeme jako cenzorované. Právě práce s těmito neúplnými údaji je hlavním důvodem, proč nelze použít běžné statistické metody a je nutné využít speciální přístupy, mezi které patří právě Kaplan-Meierova metoda.

Hlavním výstupem Kaplan-Meierovy metody je tzv. funkce přežití. Ta vyjadřuje pravděpodobnost, že sledovaná událost nastane později než v daném okamžiku. Jinými slovy, ukazuje, jaká část sledovaných jednotek v daném čase ještě „přežívá“, tedy u nich událost dosud nenastala. Tato funkce má obvykle klesající charakter – s rostoucím časem ubývá případů, u nichž k události ještě nedošlo.

Pro správné použití metody je nutné splnit několik základních předpokladů. Předpokládá se například, že podmínky sledování jsou po celou dobu stejné (například nedochází ke změně léčby), všechny případy pocházejí ze stejné populace a pravděpodobnost vzniku události závisí pouze na čase od počátku sledování, nikoli na tom, kdy konkrétní případ do studie vstoupil. Dále je důležité, aby se cenzorované a necenzorované případy systematicky nelišily.

Velkou výhodou Kaplan-Meierovy metody je možnost porovnávání více skupin. Například lze sledovat rozdíly mezi pacienty léčenými různými metodami nebo mezi různými skupinami zákazníků. K tomu slouží statistické testy, jako je log-rank test, které umožňují posoudit, zda jsou rozdíly mezi skupinami statisticky významné.


Podívejte se na webinář z řady Statistika ke kávě

Ukážeme vám, jak na analýzu dat krok za krokem.


V následující části se zaměříme na praktickou aplikaci v programu IBM SPSS Statistics. Dialog je dostupný v nabídce Analyze → Survival → Kaplan-Meier.

Ukázka bude prezentována na souboru dat pacientů s rakovinou plic, přičemž cílem je odpovědět na otázku, zda experimentální léčba dosahuje lepších výsledků než léčba standardní. Datový soubor obsahuje proměnnou time, která udává počet týdnů do úmrtí pacienta, případně dobu sledování, pokud k úmrtí nedošlo. Dále je zde proměnná death, která nese informaci o tom, zda k úmrtí u pacienta došlo. Soubor obsahuje i další proměnné, mimo jiné proměnnou treatment, která určuje, jaký typ léčby byl u pacienta zvolen.

Nastavení dialogu

Do pole Time zadáme proměnnou, která definuje čas, kdy nastala událost, nebo bylo ukončeno sledování případu (cenzorovaný případ). Do pole Status přeneseme proměnnou určující stav případu v době ukončení studie. Do pole Factor lze zadat kategorizovaný faktor, který definuje porovnávané skupiny.

Tlačítkem Define Event definujeme kód (Single Value), interval (Range of Values), nebo seznam hodnot (List of values) vyjadřujících, že sledovaná událost nastala.

Dále v nabídce Compare Factor zaškrtneme všechny tři testy, které nám umožní posoudit, zda se standardní a experimentální léčba mezi sebou statisticky významně liší. V nabídce Options poté zvolíme možnost Survival, která vykreslí funkci přežití.

Funkce přežití

Graf funkce přežití znázorňuje odhad pravděpodobnosti, že u případu nastane sledovaná událost později než v daném okamžiku, pro kontrolní a experimentální skupinu. Vodorovná osa představuje čas (týdny), svislá kumulativní podíl případů, u nichž v daném časovém okamžiku jev ještě nenastal. Křížky u jednotlivých křivek pak představují cenzorovaná pozorování.

Tabulka Means and Medians Survival Time zobrazuje průměrnou a mediánovou dobu života pro porovnávané skupiny i celkem.

Řádky tabulky reprezentují kontrolní skupinu, experimentální skupinu a celý soubor. Sloupce se vztahují k průměrné (Mean) a mediánové (Median) době života a vyjadřují postupně: odhad statistiky (Estimate), její standardní chybu (Std. Error) a 95% interval spolehlivosti (95% Confidence Interval).

Pro posouzení, zda jsou rozdíly zjištěné mezi kontrolní a experimentální skupinou statisticky významné, nabízí procedura tři různé statistické testy: Log rank test (Log Rank (Mantel-Cox)), Breslowův test (Breslow (Generalized Wilcoxon))Tarone-Warův test (Tarone-Ware). Všechny tyto testy jsou založeny na porovnání pozorovaného počtu konečných událostí a jejich očekávaném počtu v každém časovém okamžiku.  Liší se však tím, jak váží pozdější časové okamžiky, v nichž je nižší počet případů vystavených riziku, vzhledem k dřívějším. Log rank test má nastaveny váhy všech časových okamžiků stejné. Breslowův test přisuzuje dřívějším časovým okamžikům větší váhu (váha odpovídá počtu případů vystavených riziku). Log rank test je považován za silnější než Breslowův v situaci, kdy jsou mortality ve skupinách úměrné. V opačném případě je vhodné použít Breslowův test, který je však velmi slabý při vysokém podílu cenzorovaných případů. Taronův-Warův test představuje určitý kompromis, váha odpovídá odmocnině z počtu případů vystavených riziku.

V tomto případě jsou zobrazeny výsledky všech tří testů. Tabulka ve sloupcích postupně obsahuje testovou statistiku (Chi-Square), její stupně volnosti (df) a dosaženou hladinu významnosti (Sig.). Nulová hypotéza je formulována tak, že se doby přežití ve skupinách neliší.

Závěry všech tří testů jsou shodné. Vzhledem k tomu, že dosažená hladina významnosti je větší než 0,05, nezamítáme na 95% hladině spolehlivosti nulovou hypotézu. Rozdíly mezi skupinami zjištěné v našich datech tedy nejsou statisticky významné a mohou být způsobeny náhodou.


Chcete se naučit analyzovat data od základních až po pokročilé metody?

Součástí kurzu jsou i metody analýzy délky života.

Termín: 2. 10. 2026 – 12. 2. 2027, vždy v pátek dopoledne
Videozáznam: na 3 měsíce od ukončení kurzu ZDARMA
Formát: online přes MS Teams

Více o kurzu včetně přihlášky

Ing. Bronislava Černá
V roce 2018 ukončila bakalářský obor Matematické metody v ekonomii na Vysoké škole ekonomické v Praze a v roce 2022 dokončila magisterský studijní program Ekonometrie a operační výzkum na Fakultě informatiky a statistiky.  Již během studia pracovala v bankovním prostředí v oblasti analýzy dat. V současnosti pracuje ve společnosti ACREA jako analytička, konzultantka a lektorka se zaměřením na statistiku, reportování dat a programovací jazyk R. Ve společnosti ACREA CR pracuje jako analytička, konzultantka a lektorka.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *