Ověření úspěšnosti predikčního modelu pracovních úrazů

Předchozí článek Kolik se stane v příštím roce v České republice pracovních úrazů? byl věnován vytváření predikčního modelu, jehož cílem bylo stanovit odhady počtu pracovních úrazů pro roky 2021-2023. I přesto, že byl model vytvářen až v průběhu roku 2022, tak k datu jeho vzniku stále nebyly k dispozici údaje o pracovních úrazech za rok 2021. Z toho důvodu musel model predikovat také hodnoty pro rok 2021, tedy i pro období, které v době odhadu modelu nepředstavovalo budoucnost, ale minulost.

Poznámka:

Pokud predikční modely využívají jako svůj zdroj dat veřejně dostupné databáze, není výjimkou, že model musí nejdříve odhadnout hodnoty pro období, které se již událo. Některé statistiky totiž bývají v praxi zveřejňovány až s několikaměsíčním zpožděním.

V případě, kdy model predikuje hodnoty ukazatelů za již uplynulé období, je po zveřejnění reálných dat vhodné ověřit správnost jeho odhadů. V případě počtu pracovních úrazů za rok 2021 byla data známa v polovině roku 2022. Tyto statistiky lze nalézt například na stránkách Výzkumného ústavu bezpečnosti práce (vubp.cz). Následně tudíž mohlo dojít k porovnání predikcí získaných modelem a skutečných počtů pracovních úrazů v jednotlivých měsících daného roku.

Predikční model, vytvořený pomocí Boxovy-Jenkinsonovy metodologie, odhadoval, že v lednu 2021 se stane 2 879 pracovních úrazů. Ve skutečnosti jich však v tomto měsíci bylo evidováno o 463 více, tedy 3 342. Nejvíce podhodnocený odhad poskytl model pro měsíc květen 2021, kdy předpovídal počet pracovních úrazů rovný 2 666, přičemž se ve skutečnosti stalo úrazů 3 338. Rozdíl odhadu a skutečnosti tak byl v tomto měsíci roven 672 případům.

Naopak nejvíce nadhodnocený odhad model poskytl pro červenec 2021, kdy předpovídal počet pracovních úrazů na úrovni 2 878 a doopravdy se jich v tomto měsíci stalo pouze 2 600. Model tedy v tomto případě skutečnost nadhodnotil o 278 případů.

V průměru se vytvořený predikční model měsíčních počtů pracovních úrazů pro rok 2021 zmýlil o 329 případů, což lze s ohledem na nestandardní vývoj pracovního trhu způsobený pandemií COVID-19 považovat za velmi uspokojivý výsledek.

Statistické softwary navíc poskytují kromě výše uvedených bodových odhadů také jejich intervaly spolehlivosti. To znamená, že pro každý bodový odhad, který je reprezentován jednou konkrétní hodnotou, jsou ještě dopočítány také horní a spodní hranice těchto predikcí.

Jak již bylo uvedeno výše, pro leden 2021 model předpověděl, že se stane 3 342 pracovních úrazů. Ale zároveň také určil meze, kde se bude skutečná hodnota ukazatele s největší pravděpodobností pohybovat. Tento interval pro leden 2021 udával, že s 95% pravděpodobností bude v daném měsíci evidováno nejméně 2 358 a nejvíce 3 401 pracovních úrazů. Jak lze vidět z grafu přiloženého níže, skutečná hodnota sice leží blízko stanovené horní hranice intervalu, ale stále se ještě nachází uvnitř. Modelu se tedy pro tento měsíc podařilo stanovit správné hranice intervalu spolehlivosti pro bodový odhad.

Skutečná hodnota počtu pracovních úrazů v roce 2021 vybočila ze stanovených intervalů spolehlivosti celkem dvakrát. V obou případech byly skutečné počty vyšší, než jaké stanovovaly horní hranice 95% intervalu spolehlivosti. Poprvé byla horní hranice těsně překročena v únoru 2021, kdy model příliš nepředpokládal, že by počet pracovních úrazů mohl být vyšší než 3 249. Ve skutečnosti se jich však stalo o 5 více, tedy 3 254. Podruhé predikční model správně nestanovil horní hranici bodového odhadu pro měsíc květen 2021, kdy skutečný počet pracovních úrazů byl vyšší než stanovená mez o 145 případů.

I přesto, že pro první polovinu roku 2021 byly skutečné hodnoty poměrně blízko horní hranice stanoveného intervalu, tak ve všech ostatních (kromě dvou výše zmíněných) měsících již byly skutečné hodnoty uvnitř stanovených 95% intervalů spolehlivosti.  Pro druhou polovinu roku 2021 se už skutečné hodnoty pohybovaly více ve středu stanovených intervalů. To odpovídá také výše vykreslenému grafu bodových odhadů, kdy z něj lze pozorovat, že především pro první polovinu roku 2021 model poskytoval spíše podhodnocené odhady.

Jako vhodné pokračování analýzy predikce počtu pracovních úrazů by se dále nabízelo přepočítání stávajícího modelu doplněného o data za rok 2021. Tím by mělo dojít především ke zpřesnění odhadů pro roky 2022 a 2023. Také by bylo možné prodloužit období predikce o další jeden rok, tedy rok 2024.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.


Ing. Petra Raszyková
V roce 2019 úspěšně ukončila magisterský obor Statistika na Vysoké škole ekonomické v Praze. Již během studia pracovala v bankovním prostředí v oblasti databází, reportingu a optimalizace práce s daty. Ve společnosti ACREA CR pracuje jako analytička, konzultantka a lektorka se zaměřením na data mining a optimální datové transformace.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů