Modelování rizika úmrtí na covid-19

Bojíte se covidu? Bojíte se o své blízké? Pojďme se na základě historických veřejně dostupných dat podívat, jak je covid 19 nebezpečný. Trápí nás především úmrtí a vytížené nemocnice, zkusme si proto zodpovědět následující otázky:

  • Jak je pravděpodobné, že zemřu, pokud se u mě prokáže nákaza covidem 19?
  • Jak je pravděpodobné, že zemřu, pokud budu hospitalizován s covidem 19?

Při hledání odpovědí budeme odhadovat podmíněnou pravděpodobnost úmrtí (smrtnost). V prvním scénáři je podmíněna nákazou, v druhém hospitalizací.

Smrtnost je vysoce variabilní. Ačkoli ji můžeme odhadnout pro celou populaci jedním číslem, je na místě ukázat, proč různí lidé mají různou pravděpodobnost úmrtí na covid. Zdůvodnění budeme hledat ve věku a pohlaví. To jsou bohužel jediné dvě vlastnosti, které jsou veřejně dostupné v individuálních datech.

Ačkoli se zveřejňuje mnoho údajů v souvislosti s covidovou pandemií, v drtivé většině se nejedná o individuální data. Zpravidla jsou prezentovány pouze výsledky analýz a souhrnné počty. A i ty ještě navíc bývají zpětně korigovány. Ke spolehlivému odhadu smrtnosti bychom potřebovali data o všech nakažených jedincích obsahující jednak příznak úmrtí a jednak data o jedinci samotném. Dostupnost dat se od první coronavirové vlny znatelně zlepšila, k dispozici jsou i částečná individuální data. Stále však nelze u konkrétního nakaženého zjistit, zda zemřel, známe jen jeho věk a pohlaví. I přesto jsem se o odhad smrtnosti z dostupných individuálních dat pokusil a zjistil, že především s věkem se smrtnost mění, a to o několik řádů! Prezentované odhady jsou nepochybně nadhodnocené, neboť jedinci, kteří se z covidu vyléčili, ale nebyli testováni, se do datové základny vůbec nedostali.

Nejprve se podívejme na možné stavy a přechody mezi nimi, abychom si ujasnili, co rozumíme pod odhadem smrtnosti. Rozlišíme čtyři možné stavy každého jednotlivce: zdravý jedinec, nakažený, hospitalizovaný s nákazou, mrtvý. Stavy a možné přechody mezi nimi ukazuje následující obrázek.

Přechody mezi stavy znázorňují nakažení, uzdravení, přijetí do nemocnice apod. Stav mrtvý je terminální, přechod do jiného stavu z něj není možný.

Při odhadu smrtnosti nás zajímá pravděpodobnost přechodu ze stavu nakažený do stavu mrtvý, a to buď přímo, nebo přes stav hospitalizovaný. Při odhadování smrtnosti podmíněné přijetím do nemocnice budeme odhadovat pouze pravděpodobnost přímého přechodu ze stavu hospitalizovaný do stavu mrtvý.

Na úvod se podívejme na rozdělení věku a pohlaví u jednotlivých stavů. Už to nám napoví, jak se smrtnost s věkem a pohlavím mění. Populace zdravých jedinců je téměř shodná s populací celé ČR, protože nemocných, hospitalizovaných a mrtvých je oproti zdravým málo. Rozdělení všech obyvatel ČR můžeme považovat za shodné s rozdělením zdravých jedinců. Obě pohlaví jsou v ČR zastoupena téměř rovnoměrně, ženy se dožívají mírně delšího věku, proto jich je o procento více. Rozdělení věku ukazuje následující obrázek.

Věkový profil mužů (vlevo) je velmi podobný věkovému profilu žen. V grafu jsou patrné populační vlny, nejvýrazněji vyčnívají tzv. Husákovy děti, dnešní čtyřicátníci. Dále můžeme konstatovat, že od věku 75 let začíná lidí ubývat, devadesátníků a výše najdeme v ČR velmi málo.

Podíváme-li se na pohlaví nakažených, zjistíme, že rozdíly mezi muži a ženami jsou opět zanedbatelné. První rozdíly oproti zdravým jedincům najdeme ve věkovém profilu na následujícím grafu.

Je na něm patrné maximum u středně staré populace již zmíněných Husákových dětí, mladí lidé a starší lidé se nakazí s menší pravděpodobností, je jich zde méně než u zdravých jedinců. Ale samotná nákaza není náš cíl, důležití jsou hospitalizovaní a především mrtví. U hospitalizovaných se bohužel uvádí jen pětileté věkové kategorie, proto není následující histogram tak podrobný, ale pro srovnání postačí.

Opět zde vidíme patrné maximum podobně jako u nemocných, avšak toto maximum je posunuto k vyššímu věku, tvoří ho sedmdesátníci. Děti nemocniční péči, na rozdíl od starších lidí, nepotřebují. U hospitalizovaných jedinců také nenajdeme velké rozdíly mezi muži a ženami, ale muži zde již převládají.

Převaha mužů se více projeví u zemřelých. Z hlediska odolnosti proti covidu jsou muži křehčí než ženy. A změny nám neuniknou ani u rozdělení věkového profilu. Opět v grafech figuruje jedno výrazné maximum oproti hospitalizovaným ještě více posunuté do vyšších věkových kategorií. Ve srovnání se sedmdesátníky a osmdesátníky lidé do padesátky neumírají. Okolo šedesátky však začíná rozdělení dosti strmě stoupat, a tedy i smrtnost zde bude prudce narůstat.

Číselný odhad smrtnosti a vysvětlení její variability nám poskytne model. Na ukázku jsem vybral rozhodovací strom CHAID. Protože máme k dispozici pouze dvě vysvětlující proměnné, pohlaví a věk, není strom příliš košatý a nabízí jasnou interpretaci závislosti smrtnosti na věku a pohlaví.

Pro odhad standardní smrtnosti podmíněné nákazou bohužel nejsou k dispozici potřebná individuální data, proto jsem s jistou mírou nepřesnosti na sebe napojil agregovaná data nakažených a zemřelých. Nakažené a zemřelé jsem agregoval podle pohlaví, věkové kategorie a týdne. Týdny jsem počítal od začátku roku 2020. Na základě týdne, pohlaví a věkové kategorie jsem nakažené a zemřelé spojil. Při spojení jsem ještě o týden posunul zemřelé, protože úmrtí nenastává bezprostředně po nákaze. U spojených agregovaných dat jsem prostým podílem počtu mrtvých a počtu nakažených spočetl smrtnost. Spojení agregovaných dat a nejistý časový posun nepochybně snižuje přesnost odhadu, proto jsem experimentoval jak s časovým posunem, tak s věkovými a časovými kategoriemi. Odlišnosti v modelu však nebyly velké, model vždy poukáže na rozdílnou smrtnost pro různé pohlaví a věk. V modelu se neobjevuje závislost na čase, smrtnost se během pandemie příliš nemění.

Model ukazuje, že smrtnost lidí do padesáti let je velmi nízká. Věkové kategorie o šířce 10 let jsou v rozhodovacím stromě označeny 00 pro děti do 10 let, 01 od deseti do dvaceti let atd. Samotnou smrtnost najdeme v příslušném uzlu jako hodnotu označenou predicted. U padesátníků oproti mladším věkovým kategoriím smrtnost několikrát vzroste, ale pořád se pohybujeme v řádech jednotek promile. U šedesátníků se už dostáváme do jednotek procent. Smrtnost sedmdesátníků opět vzroste o řád, již se pohybujeme v desítkách procent. Smrtnost osmdesátníků a starších se ještě několikrát zvýší, nákaza covidem pro ně představuje značné riziko. Zatímco nízká smrtnost padesátníků a mladších se neliší podle pohlaví, u všech starších věkových kategorií jsou muži daleko zranitelnější než ženy. U mužů nad 80 let je smrtnost dokonce vyšší než 50 %.

Podobné výsledky jako při modelování smrtnosti podmíněné nákazou dostaneme i při modelování smrtnosti podmíněné hospitalizací. Hodnoty smrtnosti jsou tu však vyšší, a to především pro mladší věkové kategorie. Mladí lidé bývají do nemocnice přijímáni zřídka, ale pokud k hospitalizaci dojde, pravděpodobnost jejich úmrtí se o řád zvýší oproti nehospitalizovaným. U starších lidí takové rozdíly nepozorujeme, protože ti naopak bývají přijímáni do nemocnice často.

Model hospitalizovaných poskytuje na rozdíl od modelu nakažených přesné odhady, neboť vychází z individuálních dat o hospitalizovaných, kde najdeme i příznak úmrtí. Věkové kategorie po pěti letech jsou v individuálním modelu popsány intervaly, smrtnost si v uzlech stromu můžeme přečíst jako procentuální podíl kategorie mrtvých označené kódem 1. Smrtnost mladých hospitalizovaných se pohybuje v procentech, okolo šedesátky se zvyšuje do desítek procent. Pro hospitalizované starší muže covid představuje vyšší riziko než pro ženy, u mladších věkových kategorií je závislost smrtnosti na pohlaví nevýznamná.

Oba prezentované modely ukazují na velmi vysokou variabilitu smrtnosti, starší věkové kategorie mají smrtnost o tři řády vyšší než ostatní populace! Kdybychom měli k dispozici individuální data s anamnézou nakažených, nepochybně bychom našli ještě podrobnější model, kde by věk byl doplněn nebo nahrazen nemocností. Jistě se shodneme, že s věkem nemocí přibývá, a proto věk v našem modelu můžeme považovat za souhrnný faktor zahrnující v sobě i nemocnost.

Modely potvrzují známý fakt, že chránit musíme starší, případně nemocné. Zároveň ale také říkají, že děti a lidé v produktivním věku, tedy většina populace, se nemusí bát, že na covid zemřou. Na základě výsledků se domnívám, že pokud proočkujeme důchodovou populaci, přestane být covid-19 pro lidstvo rizikovou chorobou. A protože se jedná o sice významnou, ale přece jen menšinovou populaci, věřím, že se díky očkování seniorů velmi brzy budeme moci opět chovat tak, jak jsme byli před více než rokem zvyklí.

Mgr. Ondřej Háva, Ph.D.
Senior analytik a lektor data miningu v ACREA CR. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení rizik a detekce podvodů. Má zkušenost s vedením desítek rozsáhlých dataminingových projektů a softwarových řešení pro velké společnosti. Zaměřuje se na problematiku text miningu a sociálních sítí, je autorem a spoluautorem řady odborných článků a publikací. V současné době se věnuje vývoji textminingového modulu ACREA TEXT MINING.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů