Košík je prázdný

Diskriminační analýza a logistická regrese III.

20.2. 2025Ing. Ondřej Brom1863x0 Komentářů

V minulé části jsme si ukázali, jak se v diskriminační analýze provádí klasifikace do skupin. Používají se dva, co se výsledku týče, ekvivalentní způsoby, kdy jeden pracuje s diskriminačními funkcemi a druhý s funkcemi klasifikačními. Nyní přikročíme k srovnání klasifikace s další široce rozšířenou metodou pro klasifikaci, tedy s logistickou regresí. Logistická regrese počítá pravděpodobnost příslušnosti ke skupině podle vzorce (1).

Kde G odpovídá jedné zvolené skupině (reference) a g jsou ostatní skupiny. Vzorec je platný i pro klasifikaci do dvou skupin, pak lze jednu pravděpodobnost získat také jako doplněk do jedné. Protože je vzorec založen na původních proměnných, a ne na diskriminačních funkcích, je pro srovnání s DA vhodné použít klasifikaci založenou na klasifikačních funkcích pracujících s původními proměnnými, vzorec (2).

Srovnání obou vzorců ukazuje analogický výpočet pravděpodobnosti (aposteriorní). Srovnáním zjistíme, že koeficientům logistické regrese β_1g odpovídá rozdíl klasifikačních funkcí Δ_1g. To, čím se vzorce liší, je způsob odhadu koeficientů a tím i jejich intepretace. Interpretaci DA jsme si ukázali v minulém článku, nyní se zaměříme na logistickou regresi.

Interpretace

V logistické regresi mají koeficienty jasnou intepretaci, vyjadřují kolikrát se změní šance pro danou skupinu oproti referenční při jednotkové změně proměnné. Šance je podíl pravděpodobností příslušnosti k jedné a ke druhé skupině. V logistické regresi se předpokládá lineární závislost logaritmu šance na vysvětlujících proměnných, to vede ke vzorci (1). Koeficienty se odhadnou metodou maximální věrohodnosti tak, aby vzorec co nejvěrněji zachycoval empirické šance. Dá se ukázat, že exponenciála z koeficientu stojícího u dané proměnné exp(β_1g) vyjadřuje, kolikrát se zvýší šance, pokud se proměnná zvýší o 1. Mluvíme o poměru šancí (OR, odds ratio).

Pro srovnání s diskriminační analýzou je potřeba dát koeficientům i geometrickou intepretaci. Pro jednoduchost se omezíme na dvě nezávislé proměnné a dvě skupiny. Při více skupinách by se srovnávaly po dvojicích. Pro srovnání dvou skupin máme ve vzorci (1) jen jednu rovnici, která počítá pravděpodobnost jedné skupiny, řekněme A. Pravděpodobnost druhé skupiny B se dopočítá jako doplněk do 1.

Omezíme-li se jen na dvě proměnné, je ve vzorci (1) v exponentu rovnice přímky, podél které jsou pravděpodobnosti příslušnosti ke skupině konstantní, konstantní je tudíž i šance. Šance roste nejrychleji ve směru kolmém na tuto přímku a odhad se snaží co nejvěrněji replikovat směr růstu šance v souboru. Konkrétní pozice přímky v rovině závisí na hraniční pravděpodobnosti, případ je přiřazen ke skupině A, pokud její pravděpodobnost překročí hranici. Hraniční pravděpodobnost hraje podobnou roli jako apriorní pravděpodobnost v diskriminační analýze.

V DA je směr hraniční přímky dán zejména polohou centroidů skupin a vnitrokovarianční maticí, poloha závisí ještě na apriorních pravděpodobnostech. Jednotlivý případ ovlivňuje hranici pouze zprostředkovaně přes průměry a vnitrokovarianční matice, dva různé soubory ale se stejnými centroidy a vnitrokovariančními maticemi by vedly k identické DA. V logistické regresi případ ovlivňuje přímo odhadnutou rovnici. Přestože jsou vzorce (1) a (2) formálně shodné, nelze exponenty koeficientů DA interpretovat jako OR, koeficienty jsou vždy jen odhady a DA s OR vůbec nepracuje, takže je ani neodhaduje.

Srovnání

Navzdory odlišné interpretaci je užitečné koeficienty srovnat, pokud se příliš neliší, je to dobrým znamením, že určení skupin je robustní a lze ho odhadovat různými způsoby. Vliv proměnných bude podobný, pokud budou hraniční přímky, resp. vícerozměrné nadroviny obou metod rovnoběžné. Absolutní pozice v prostoru není podstatná, hranice lze vždy posouvat volbou hraniční pravděpodobnosti nebo apriorních pravděpodobností. Rovnoběžnost obecně neznamená rovnost koeficientů. Přímka se totiž nezmění, když její obecnou rovnici vynásobíme konstantou, např. rovnice y + 2x + 5 = 0 definuje stejnou přímku jako rovnice 3y + 6x + 15 = 0. Koeficienty obou metod je proto nutno pro srovnání normalizovat nejlépe tak, že vytkneme koeficient u jedné proměnné a porovnáme ostatní koeficienty. Neporovnáváme absolutní člen, který definuje nezajímavou pozici v prostoru. V Tab. 1 je ukázka původních a normalizovaných koeficientů, pro DA je uveden už rozdíl klasifikačních funkcí. Na Obr. 1 je nakreslena odpovídající hraniční přímka z obou metod, v tomto případě jsou přímky nejen přibližně rovnoběžné, ale téměř splývají. Důležitá je ovšem rovnoběžnost.

Tab. 1. Ukázka odhadnutých koeficientů v DA a LR

Pro praktické užití se nabízí zřejmá otázka, kterou metodu použít. Na ní je zřejmá odpověď: „To záleží…“. Záleží na tom, jakým mechanismem se v realitě řídí příslušnost ke skupině a který model je tudíž realitě bližší. To obecně nelze určit. Formálně se lze zaměřit na předpoklad vícenásobné normality u DA, ale jeho největší porušení, sešikmené a extrémní hodnoty, má stejně devastující vliv i na LR, ač ta normalitu nepředpokládá.

Nejlepší je srovnat klasifikační schopnost obou metod. V případě dvou skupin je vhodné přímé užití ROC křivky, v případě více skupin postupné srovnání pomocí jednotlivých párů opět podle ROC. Situace je usnadněna jsou-li hraniční přímky (nadroviny) rovnoběžné, pak obě metody dávají podobné výsledky. Jako je na Obr. 2 odpovídající klasifikaci z Obr. 1.

Záleží také na potřebě intepretace. U DA je velmi neintuitivní, je pouze geometrická a představitelná jen ve dvourozměrném, maximálně třírozměrném prostoru. Není to však žádná věcná intepretace s ohledem na zkoumaný problém. Nejvíce uchopitelnou intepretaci dostaneme nakonec srovnáním s koeficienty LR (původní, ne normalizované), ale pak můžeme rovnou odhadnout LR. DA také neobsahuje žádné testy koeficientů. Pokud je věcná intepretace nutná, je LR v podstatě jedinou volbou a zříkáme se jí jen, když DA dává výrazně lepší výsledky.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Ondřej Brom

lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuji na analytickou činnost převážně v oblasti data miningu. V nemalé míře se podílím na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení společnosti ACREA.

Komentáře

Přidat komentář Zrušit odpověď

Tato stránka používá cookies

Na stránkách používáme soubory cookies. Některé jsou nezbytné pro fungování stránek, jiné nám umožňují poskytnout vám lepší zkušenost při návštěvě našich stránek nebo zobrazování reklamy, pomáhají nám analyzovat návštěvnost a stránky zlepšovat. Více informací

Nastavení cookies Přijmout vše

Souhlas s používáním cookies

Cookies jsou malé soubory, které se dočasně ukládají ve vašem počítači a pomáhají nám k lepší uživatelské zkušenosti na našich stránkách. Cookies používáme k personalizaci obsahu stránek a reklam, poskytování funkcí sociálních sítí a k analýze návštěvnosti. Informace o vašem používání našich stránek také sdílíme s našimi partnery v oblasti sociálních sítí, reklamy a analýzy, kteří je mohou kombinovat s dalšími informacemi, které jste jim poskytli nebo které shromáždili při vašem používání jejich služeb.

Ze zákona můžeme na vašem zařízení ukládat pouze soubory cookie, které jsou nezbytně nutné pro provoz těchto stránek. Pro všechny ostatní typy souborů cookie potřebujeme vaše svolení. Budeme vděční, když nám ho poskytnete a pomůžete nám tak, naše stránky a služby zlepšovat. Svůj souhlas s používáním cookies na našem webu můžete samozřejmě kdykoliv změnit nebo odvolat. Více informací

Jednotlivé souhlasy

Nezbytné - aby stránky fungovaly, jak mají.

Nezbytné soubory cookie pomáhají učinit webové stránky použitelnými tím, že umožňují základní funkce, jako je navigace na stránce a přístup k zabezpečeným oblastem webové stránky. Bez těchto souborů cookie nemůže web správně fungovat.

Preferenční - abychom si pamatovali vaše preference.

Preferenční cookies umožňují, aby si stránka pamatovala informace, které upravují, jak se stránka chová nebo vypadá. Např. vaše přihlášení, obsah košíku, zemi, ze které stránku navštěvujete.

Statistické - abychom věděli, co na webu děláte a co zlepšit.

Statistické cookies pomáhají provozovateli stránek pochopit, jak návštěvníci stránek stránku používají, aby mohl stránky optimalizovat a nabídnout jim lepší zkušenost. Veškerá data se sbírají anonymně a není možné je spojit s konkrétní osobou.

Marketingové - abychom vám ukazovali pouze relevantní reklamu.

Marketingové cookies se používají ke sledování pohybu návštěvníků napříč webovými stránkami s cílem zobrazovat jim pouze takovou reklamu, která je pro daného člověka relevantní a užitečná. Veškerá data se sbírají a používají anonymně a není možné je spojit s konkrétní osobou.

Uložit nastavení

Přijmout vše

Diskriminační analýza a logistická regrese III.

Interpretace

Srovnání

Přidat komentář Zrušit odpověď

Nepropásněte další blogový článek