Odhad nadúmrtnosti pomocí analýzy časových řad

Metoda

Analýza časových řad je důležitou a specifickou součástí statistiky. Pracuje s časovými řadami, tedy s posloupnostmi hodnot uspořádaných v čase. Základní účel analýzy je pochopit chování řady v minulosti, matematicky ho zachytit a využít ho k předpovědi hodnot do budoucna.

Svět, ve kterém žijeme a ve kterém se vyskytují procesy generující časové řady, je velmi složitý, takže i samotné řady mají složitý průběh. Najít model popisující řadu vyžaduje pokročilé metody. Zřídka kdy si vystačíme s klasickými statistickými přístupy například s běžnou regresní analýzou. Ta by se snažila řadu proložit nějakou křivkou, ale složitý průběh řady neumožňuje křivku zkonstruovat. A i když je řada jednoduchá, není regresní model správný ze statistického hlediska, hlavním problémem je závislost náhodných chyb modelu.

Dnes je už standardem používat pro analýzu časových řad Boxovu–Jenkonsonovu metodologii neboli modely ARIMA. Ty dokáží popsat i velmi složité chování řady, správně pracovat s korelací náhodných chyb, a dokonce budovat závislost řady na jiných časových řadách. To znamená, že v sobě zahrnují i klasickou regresi a rozšiřují ji o specifika časových řad. Uživatel pak může vyjít z běžné regrese a obohatit ji o širší možnosti modelů ARIMA nebo může vybudovat model zcela jinak, než by odpovídalo regresní metodě. Jako ilustraci použití řady vytvoříme model vycházející z klasické regrese, ale opravený metodou ARIMA, aby řadu popisoval lépe, a hlavně aby byl statisticky korektní.

Úloha

Dnes je pochopitelně hodně zájmu věnováno pandemii COVID 19. Jedna z otázek je, jaké následky pandemie měla. Jistě budou veliké a velmi rozsáhlé, zde se omezíme pouze na počet zemřelých. Na první pohled je to snadná úloha, neboť počty jsou publikovány dokonce na denní bází většinou států světa. Ale rozhodnutí, zda byl COVID19 příčinou úmrtní, není jednoduché a už vůbec ne jednoznačné a liší se v jednotlivých státech. Aby se následky pandemie daly určit nezávisle na lidském rozhodování, nabízí se možnost srovnat úmrtí v roce 2020 nebo později s běžným počtem úmrtí definovaným úmrtími před rokem 2020. Zde přichází ke slovu model časových řad. Na základě historických pozorování z doby před pandemií se stanoví běžné počty úmrtí, a to dovolí zjistit, o kolik počet vzrostl v době pandemie nebo i poté (nadúmrtnost).

Statistický úřad EU Eurostat publikuje počty zemřelých v jednotlivých týdnech po věkových skupinách 10 let. Řady jsou pro různé státy různě dlouhé, pro Českou Republiku jsou k dispozici data od roku 2005. Pro analýzu byla zvolena data od roku 2010, aby model zachytil trendy jen z posledních let. Počet zemřelých v jednotlivých věkových skupinách v jednotlivých státech do roku 2019 byl modelován ARIMA modelem, v jehož jádru je celkem jednoduchý regresní model. Regresní model předpokládá kvadratickou závislost počtu zemřených na čase s pravidelnými odchylkami v jednotlivých týdnech roku (indikátory), v modelu ARIMA je zohledněna i korelace residuí regresního modelu, jakož i netypické hodnoty v minulosti. Například vlna veder v týdnu 10. – 16. 8. 2015. Odhadnuté modely stanovily intervaly, ve kterých by se počty zemřelých měly v roce 2020 pohybovat s pravděpodobností 95 %. Pokud skutečné počty intervaly opustily, jedná se o abnormálně zvýšenou, teoreticky i sníženou, úmrtnost.

Pro ilustraci je uveden graf srovnávající skutečné hodnoty a předpověď modelu pro Českou republiku a věkovou skupinu nad 90 let. Na Obr. 1 je srovnání modelu a skutečného vývoje pro období na kterém byl model odhadnut, tedy 2010 – 2019. Přibližně lineární růst počtu zemřelých v této věkové skupině je důsledkem zvyšující se naděje na dožití, takže více lidí umírá až v nejvyšší věkové kategorii. Tento fakt je třeba při odhadu nadúmrtnosti vzít do úvahy.

Klíčem k výpočtu nadúmrtnosti je Obr. 2 srovnávající modelový (běžný) vývoj a skutečnost v roce 2020. Vybočení skutečných hodnot z daného intervalu značí změnu v chování řady a ukazuje, kolik zemřelých je navíc oproti normálu. Rozdíly skutečného a modelového počtu pro jednotlivé týdny, kdy je skutečnost mimo interval, dávají dohromady počet zemřelých navíc za celý rok v dané věkové skupině a státě. Analogicky se postupuje u ostatních věkových skupin a států. Celkem bylo potřeba vytvořit 324 modelů. Vzhledem k nízkým počtům a vysoké variabilitě byla z analýzy vynechána věková skupina do 10 let.

Zjednodušený přístup odhadující normální počty zemřelých prostým průměrem v jednotlivých týdnech z několika posledních let není správný. Nebere v úvahu vývoj počtu zemřelých v čase a není to ani statisticky korektní odhad. Průměr je totiž speciálním případem lineárního modelu a ten předpokládá nezávislost náhodných chyb, zde odchylek od průměru. Není-li nezávislost splněna, je model, tedy i průměr, spočten nesprávně.

Obr.1 Vyrovnané hodnoty počtu zemřelých – období odhadu modelu

Obr.2 Předpověď na rok 2020 a skutečný vývoj počtu zemřelých

Výsledek

Výsledek analýzy nevypovídá nic o příčině zvýšeného počtu zemřelých, ale vzhledem k absenci jiných výrazných vlivů v roce 2020, ji lze přičíst na vrub působení COVIDU 19. Zvýšené počty zemřelých nejsou pouze přímá úmrtí na COVID 19, ale jde o celkový důsledek pandemie, který je ovlivněn i různým přístupem státu a společnosti k pandemii samotné. Mapa na Obr.3 ilustruje celkové počty nadúmrtí v evropských zemích za rok 2020 přepočítané na 1 000 000 obyvatel. Další ukazatele obsahuje mapa na Obr. 4, zde je počet skutečně zemřelých navíc vztažen k normálnímu očekávánému počtu zemřelých. Druhý ukazatel více vypovídá o změněných úmrtnostních poměrech, ale má nevýhodu, že je spočten jako podíl dvou odhadů. Odhadu nadúmrtnosti a odhadu normálního počtu zemřelých. Druhý ukazatel vychází lépe pro Bulharsko, které má i za normálních okolností vysokou úmrtnost, a hůře např. pro Španělsko nebo Belgii, kde je normálně úmrtnost relativně nízká.

V České republice došlo podle modelu za rok 2020 k 16 200 nadměrným úmrtí, což odpovídá 1 700 úmrtí na milion obyvatel. Počet zemřelých se zvýšil o 14,1 %. Podle prvního ukazatele připadá České republice 8. a podle druhého 9. nejhorší místo 33 mezi hodnocenými státy. Nejhorší situace byla v Bulharsku, respektive v Belgii, nejlepší v Norsku, respektive v Dánsku, pomineme-li podezřele vynikající hodnotu v Gruzii. Ta ani nebyla na mapě uvedena.

Podrobnější analýza ukazuje, že se nadúmrtnost zvyšuje s věkem. V analyzovaných státech nárůst věku o jeden rok vede přibližně k 9 % nárůstu nadúmrtnosti. V absolutních počtech se na nadúmrtnosti nejvíce podílí věková skupina od 80 do 89 let, nižší nadúmrtnost oproti skupině nad 90 let je více než vykompenzována vyšším počtem obyvatel v této skupině.

Účelem analýzy v tomto případě nebylo stanovit klasickou předpověď, i když i to by bylo možné, ale definovat normální chování řady a pak ho využít i odhalení a vyčíslení podivného vývoje. Podrobnějším rozborem modelů by se dalo identifikovat i období, kdy k abnormalitě došlo nebo srovnat její velikost napříč věkovými skupinami. Podobně se dá analýza využít například v průmyslu k identifikaci problémů ve výrobním procesu nebo v přírodovědě pro určení nadměrných průtoků.

Obr. 3 Celkový počet nadúmrtí v roce 2020 na 1 mil. obyvatel

Obr. 4 Procentuální navýšení počtu zemřelých v roce 2000

Přihlaste se do našeho kurzu ANALÝZA A PREDIKCE ČASOVÝCH ŘAD a naučte se pracovat s časem ve svůj prospěch. Získáte nový pohled na problematiku zpracování časových řad, který vám otevře nové možnosti v řešení vašich každodenních analytických úloh. Všechny cenné vědomosti získané během kurzu si vyzkoušíte i v praxi s lektorem.

Ing. Ondřej Brom
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů