K čemu se hodí a kdy užít logistickou regresi

Logistická regrese je oblíbená statistická metoda, která je zvláště pro některé obory zcela klíčová. Nachází uplatnění například v oblasti kreditního rizika při predikci problémů se splácením úvěru, v medicíně při analýze rizikových faktorů ve vztahu k určitému onemocnění, při odhalování pojistných nebo jiných podvodů, v marketingu při rozhodování, které zákazníky oslovit s daným produktem i v mnoha dalších situacích. Pokud jste se s touto metodou zatím nesetkali, rádi bychom Vám ji krátce představili a přiblížili, kdy je vhodné ji použít.

Co je logistická regrese

Pokud hovoříme o logistické regresi, obvykle máme na mysli tzv. binární logistickou regresi, pro kterou je charakteristické, že závislá proměnná je dichotomická (tj. nabývá právě dvou hodnot). Nejčastěji se jedná o situaci, kdy sledujeme určitý jev a zajímá nás, jestli nastane nebo nenastane. Může se jednat například o to, zda pacient trpí/netrpí určitým onemocněním, případně zda u něho bude/nebude mít závažný průběh, zda žadatel o úvěr bude/nebude mít problémy s jeho splácením, zda pojistná událost je/není podvod, zda zákazník bude/nebude mít zájem o daný produkt apod.

Logistická regrese umožňuje odhalit faktory, které ovlivňují, zda sledovaný jev nastane a posoudit míru jejich vlivu. Přitom se může jednat o číselné i kategorizované veličiny jako například věk, pohlaví nebo vzdělání. Pro jednotlivé případy je potom možné odhadnout pravděpodobnost sledovaného jevu na základě znalosti hodnot těchto vysvětlujících proměnných.

Ačkoliv nás obvykle zajímá, s jakou pravděpodobností nastane sledovaný jev u případů, u nichž tuto informaci zatím neznáme, pro vytvoření modelu potřebujeme mít k dispozici historická data. Je tedy nutné alespoň u části případů znát hodnotu cílové proměnné. Na těchto datech model vytvoříme a následně ho můžeme využít pro odhad pravděpodobnosti pro nové případy.

Ukažme si to na příkladu v souvislosti s aktuálně probíhající pandemií COVID-19. Znalost rizikových faktorů spojených s tímto onemocněním je klíčová nejen pro lékaře, ale i pro rozhodování o preventivních opatřeních, která mají chránit nejvíc ohrožené skupiny. Řada studií již ukazuje, že riziko komplikací se výrazně zvyšuje s věkem, liší se podle pohlaví a více ohrožení jsou pacienti, kteří trpí některými závažnými onemocněními. Pokud bychom měli k dispozici dostatečně podrobná a kvalitní historická data o pacientech, kteří onemocnění prodělali, a mohli bychom předpokládat, že se situace systematickým způsobem nezměnila (například vlivem mutace viru nebo jinými podmínkami), mohli bychom nejen analyzovat rizikovost různých faktorů, ale také vytvořit model pravděpodobnosti vážného průběhu onemocnění v závislosti na věku, pohlaví, dalších onemocněních pacienta a případně i jiných faktorech. Na základě tohoto modelu bychom byli schopni u konkrétního nového pacienta (například muž ve věku 59 let, který trpí vysokým krevním tlakem a cukrovkou) odhadnout pravděpodobnost, že u něho bude mít onemocnění vážný průběh.

Model logistické regrese

Model logistické regrese vychází z podobné myšlenky jako lineární regrese, pro kategorizovanou závislou proměnnou je však nutné ho přizpůsobit. Zatímco levá strana regresní rovnice by mohla nabývat pouze dvou hodnot, pravá strana (lineární kombinace prediktorů) může obecně nabývat libovolných hodnot. Z toho důvodu se ukazuje jako vhodnější předpovídat místo původních kategorií jejich pravděpodobnost a zároveň hodnoty pravé strany rovnice ještě vhodným způsobem transformovat na interval <0,1>. K tomuto účelu se užívá tzv. logistická funkce. Parametry logistického regresního modelu se odhadují metodou maximální věrohodnosti.

Při vytváření modelu je třeba posoudit a ověřit jeho kvalitu. K tomu slouží jednak řada měr a testů (včetně testů významnosti jednotlivých koeficientů), diagnostika problematických případů apod. Důležitou informaci poskytuje také klasifikační tabulka (někdy též nazývaná matice záměn), která vyjadřuje, jak dobře model predikuje pozitivní a negativní případy. Mezi další možné přístupy ověřování kvality modelu patří například rozdělení datového souboru na dvě skupiny – na jedné (tzv. trénovací množina) se model vytvoří, druhá (tzv. testovací množina) slouží k jeho ověření na nezávislých případech.

Logistická regrese v praxi

Logistická regrese je značně náročná na přípravu dat. Před jejím užitím je třeba ošetřit extrémy a vynechané hodnoty v datech a zvážit případnou kategorizaci číselných prediktorů do malého počtu tříd. Vzhledem k poměrně komplikovanému algoritmu a jeho numerické nestabilitě, se doporučuje budovat model postupně. Pomoci však mohou i metody pro automatický výběr prediktorů.

Pro řadu praktických aplikací je podstatné, že pro model logistické regrese existuje přesné vyjádření, které umožňuje model snadno interpretovat. Díky tomu přesně víme, jak model pracuje a rozhodování na něm založené lze auditovat. To je zásadní například v oblasti kreditního rizika, kdy banka musí být schopna doložit a odůvodnit, proč někomu úvěr poskytla a někomu jinému ne.

Zobecněním binární logistické regrese je tzv. multinomická logistická regrese, která umožňuje, aby sledovaná kategorizovaná proměnná nabývala více hodnot (může se jednat například o predikci zákaznických kategorií nebo typu výrobku, který by zákazník upřednostňoval).

Přijďte si to vyzkoušet, naučíme Vás to

Pokud Vás logistická regrese zaujala, chcete porozumět jejím základům i hlouběji proniknout do její podstaty, rádi bychom Vás pozvali na kurz Logistická regrese. Představíme Vám základní principy metody a na praktických úlohách Vás provedeme nejčastějšími typy aplikací. Zaměříme se především na binární logistickou regresi, ale ukážeme si i multinomickou logistickou regresi.

společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře
  1. Jindřich Špička napsal:

    Velmi pěkný úvod popisující princip logistické regrese. Tato metoda je využitelná i v oblasti společenských věd.

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů