Když čas hraje roli: jak pomocí Coxovy regrese předvídat budoucí rizika

Coxova regrese či správněji Coxův model proporcionálních rizik (angl. Cox proportional hazards model) je statistická metoda sloužící k analýze tzv. „time‐to‐event“ dat, tedy časů do určité události (např. úmrtí, selhání, recidivy).

Coxova regrese se používá tam, kde máme data o čase do určité události — např. v medicíně (čas do úmrtí pacienta, recidivy onemocnění), v epidemiologii (čas do začátku onemocnění), v průmyslu (čas do selhání zařízení), ale i v sociálních vědách (čas do zaměstnání po ukončení studia) či obchodu (čas do odchodu zákazníka).

Významným přínosem je, že model robustně pracuje i se cenzorovanými daty (např. když u některých subjektů událost nenastala během sledování). A dále i to, že výsledky modelu jsou snadno interpretovatelné – například „o kolik vyšší je riziko události při zvýšení dané proměnné (kovariáty – proměnné, u které předpokládáme, že má vliv na sledovanou událost) o jednotku“.

Postup výpočtu

  1. Určí se časová proměnná „čas do události“ (např. měsíce od začátku do výskytu události či ukončení sledování případu) a indikátor události (např. 1 = událost nastala, 0 = cenzorováno).
  1. Zvolí se kovariáty (prediktory) – mohou být kontinuální (např. u klinické studie to bude věk, tělesná hmotnost, krevní tlak, teplota), kategoriální (např. pohlaví, typ léčby, region) i binární (např. zda pacient trpí určitým typem onemocnění, kategorie ano/ne, 0/1).
  1. Odhadnou se koeficienty pomocí tzv. metody parciální věrohodnosti (partial likelihood).
  1. Poté se určí hazard ratio pro každou kovariátu. Pokud je HR > 1, daný faktor zvyšuje riziko výskytu události; pokud HR < 1, riziko snižuje.
  1. Posoudí se předpoklady – zejména předpoklad proporcionálních rizik, případně nezávislosti pozorování a linearity vztahu se skóre rizika.
  1. Interpretují se výsledky – koeficienty, jejich statistická významnost, HR, intervaly spolehlivosti, diagnostika.

Vhodné nástroje

Na trhu existuje řada nástrojů, které vám Coxovou regresi pomohou spočítat. Mezi nejběžnější patří:

  • Jazyk R – balíček survival, funkce coxph()
  • Python – knihovna lifelines
  • Softwarový nástroj IBM SPSS Statistics – obsahuje přímo proceduru pro výpočet Coxovy regrese.


Naučte se správně vyhodnocovat délku života a trvání jevů

Zjistěte, jak:

  • spočítat průměrnou dobu do události
  • analyzovat „přežití“ a rizika pomocí Kaplan–Meier křivek a Coxovy regrese
  • vyhodnotit vliv faktorů na délku života / trvání jevů

Jednodenní praktický kurz – 13. 1. 2026 – online i prezenčně v Praze.

➡️ Přihlaste se ještě dnes


Praktické příklady z různých oborů

Medicína / klinické výzkumy

Například studie, které sledují pacienty po diagnostice rakoviny – analyzují, zda věk, pohlaví, typ léčby, genetické markery ovlivňují čas do úmrtí nebo recidivy.
Výsledkem může být: „Pacienti starší 70 let mají hazardní poměr 1,5 oproti mladším pacientům, tedy 50 % vyšší riziko úmrtí v daném čase.“

Epidemiologie

Analýza faktorů rizika pro rozvoj nebo návrat choroby: např. u pacientů s chronickým onemocněním – jak vliv kouření, BMI, komorbidit ovlivňuje čas do první komplikace či úmrtí.

Průmysl

Sleduje se doba do selhání stroje nebo komponenty; kovariáty mohou být typ zařízení, provozní podmínky, údržba. Coxův model umožní odhadnout, jak různé faktory zvyšují riziko selhání.

Sociální vědy / demografie

Sledovat můžeme např. čas do zaměstnání po ukončení studia, čas do uzavření partnerství apod.

Business / marketing

Modelování zákaznického odchodu (churn): doba od registrace do ukončení služby – kovariáty mohou být demografie, produktové využití, zákaznické chování. Coxův model umožní zjistit rizikové faktory odchodu v čase.

Díky své flexibilitě a tomu, že umožňuje práci s cenzorovanými daty i vícero kovariátami, je Coxův model velmi široce užívaný v mnoha oblastech.

Ukázkový příklad: selhání průmyslového zařízení

Scénář: Sledujeme dobu (v měsících) do selhání kompresoru v průmyslové hale. Některé kompresory ještě neselhaly ke konci sledování (cenzorováno). Zkoumané kovariáty:

  • operating_temp — průměrná provozní teplota (°C).
  • maintenance — plánovaná prevenční údržba (1 = provádí se, 0 = ne).
  • manufacturerB — indikátor výrobce (1 = výrobce B, 0 = výrobce A).

Tabulka (data z 8 zařízení):

zařízeníčas
(měsíc)
událost
(1= selhání)
operating_temp
(°C)
maintenance
(0/1)
manufacturerB
(0/1)
A11217500
A22007010
B1818501
B21518211
A33006810
B3619001
A41817800
B42208011

Pozn.: Jedná se o náhled na data. Tento dataset slouží jen pro názornou ukázku metody.

Výsledek odhadu Coxova modelu

Po odhadu Coxova modelu dostaneme odhadnuté koeficienty ββ:

  • operating_temp: β=0,03β=0,03
  • maintenance: β=0,80β=-0,80
  • manufacturerB: β=0,50β=0,50

Z těchto koeficientů vypočteme hazard ratio (HR) jako exp(β)exp⁡(β):

  • HR (operating_temp) = exp(0,03)1,0305exp⁡(0,03)≈1,0305
  • HR (maintenance) = exp(0,80)0,4493exp⁡(-0,80)≈0,4493
  • HR (manufacturerB) = exp(0,50)1,6487exp⁡(0,50)≈1,6487

Interpretace výsledků

operating_temp (°C), HR ≈ 1.0305

Každé zvýšení průměrné provozní teploty o 1 °C je spojeno s přibližně 3,05 % vyšším okamžitým rizikem selhání (hazard) zařízení, za předpokladu, že ostatní faktory jsou stejné.

Zvýšení teploty o 10 °C by tedy odpovídalo HR ≈ exp(0,03×10)=exp(0,3)exp⁡(0,03×10)=exp⁡(0,3)≈ ≈ 1,3499 → ~35 % vyšší riziko.

maintenance (plánovaná údržba), HR ≈ 0.4493

Zařízení, která procházejí plánovanou údržbou, mají přibližně 55,1 % nižší riziko selhání než ta bez plánované údržby (protože 1 − 0,4493 ≈ 0,5507).

manufacturerB (výrobce B vs A), HR ≈ 1.6487

Zařízení od výrobce B mají přibližně 65 % vyšší riziko selhání ve srovnání s referenčním výrobcem A (při stejných hodnotách ostatních kovariát).

Pokud je to statisticky významné, může to mít důsledky pro rozhodování při nákupu či zárukách.

Další důležité kroky (co zkontrolovat)

  1. Statistická významnost — v reálné analýze vždy zkontrolujte p-hodnoty případně i 95% intervaly spolehlivosti pro HR, abyste věděli, které efekty jsou statisticky významné.
  1. Předpoklad proporcionálních rizik — otestujte (např. testem Schoenfeldových reziduí). Pokud je předpoklad porušen (efekt se mění v čase), lze:
  • Přidat interakci kovariáty s časem, nebo
  • Použít stratifikaci nebo časově závislé kovariáty.
    1. Odhad baseline hazard — i když Cox model standardně nedefinuje parametricky h0(t)h_0 (t), lze z něj odvodit přeživší křivky pro jednotlivé skupiny (např. pomocí funkce survfit v R).
    1. Praktická validace — pokud plánujete rozhodování (údržba, výběr výrobce), ověřte výsledky na nezávislém vzorku nebo cross-validací.

      Shrnutí (co si z příkladu odnést)

      • Coxův model umožní kvantifikovat vliv provozních parametrů a zásahů údržby na riziko selhání v čase.
      • Výsledek HR je snadno interpretovatelný: HR>1 = vyšší riziko, HR<1 = nižší riziko.
      • V příkladu: vyšší teplota zvyšuje riziko, plánovaná údržba výrazně snižuje riziko, a výrobce B vykazuje vyšší riziko než A.
      • Zkontrolujte statistickou významnost a předpoklad proporcionálních rizik.
      • Nezapomeňte na validaci před nasazením do rozhodování.


      Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

      společnost ACREA
      ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
      Komentáře

      Přidat komentář

      Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *