Kto mal najväčšiu pravdepodobnosť prežitia na Titanicu?

Od stroskotania legendárneho zaoceánskeho parníku Titanic už uplynulo vyše 108 rokov. Stroskotal pri svojej prvej plavbe v noci zo 14. na 15. apríla roku 1912 po zrážke s ľadovcom. Pri tejto tragickej udalosti zahynulo okolo 1 500 osôb. Posledná osoba, ktorá prežila stroskotanie lode zomrela 31. mája 2009 vo veku 97 rokov. Bola ňou angličanka, ktorá v čase stroskotania mala len 9 týždňov.

Pravdepodobnosť prežitia na Titanicu

Na základe dát o osobách, ktoré sa nachádzali na Titanicu si odhadneme model binárnej logistickej regresie a pomocou neho si zodpovieme na otázku, že kto mal najväčšiu pravdepodobnosť prežitia na Titanicu. Dátová matica obsahuje nasledujúce kategorické premenné:

  1. Class (1st, 2nd, 3rd, Crew): zakúpená trieda alebo posádka
  2. Sex (Male, Female): muž alebo žena
  3. Age (Adult, Child): dospelá osoba alebo dieťa
  4. Survived (No, Yes): informácia o prežití

Odhadnutý model binárnej logistickej regresie môžeme zapísať rovnicou

kde p je pravdepodobnosť prežitia, Crew, 1st, 2nd, FemaleChild sú 0/1 premenné, ktoré nadobúdajú hodnotu 1 ak pre osobu je prítomná daná kategória inak sú rovné 0. Z uvedenej rovnice je zrejmé, že najväčšiu pravdepodobnosť prežitia mali deti ženského pohlavia z prvej triedy. Z rovnice je možné túto pravdepodobnosť aj vypočítať a je rovná hodnote 0,957 (95,7 % pravdepodobnosť prežitia). Najmenšiu pravdepodobnosť prežitia mali dospelí muži z tretej triedy (10,4 % pravdepodobnosť prežitia). Ak by sme porovnávali rovnaké osoby čo sa pohlavia a veku týka (dieťa alebo dospelá osoba), tak posádka mala väčšiu pravdepodobnosť prežitia ako druhá alebo tretia trieda. Táto skutočnosť je pravdepodobne daná aj rozmiestnením kajút na Titanicu (obrázok 1).

Obrázok 1: Palubný plán

Z obrázku je vidieť kde boli aj schody. Záchranné člny, ktorých nebol dostatočný počet, sa nachádzali na vrchu lode kam mali zložitejší prístup práve cestujúci z tretej triedy. Zvykne sa aj uvádzať, že boli zablokovaní aby prenechali miesto pre prvú triedu. Celkovo bolo k dispozícii 20 záchranných člnov troch rozličných typov:

  1. Každý zo 14 člnov bol konštruovaný pre 65 osôb.
  2. Každý zo 4 člnov bol konštruovaný pre 47 osôb.
  3. Každý z 2 člnov bol konštruovaný pre 40 osôb.

Maximálne sa tak mohlo zachrániť len 1 178 osôb. V osudnú plavbu sa na palube nachádzalo cez 2 200 osôb a prežilo len niečo cez 700 osôb.

Pre popis dát z najväčšej námornej tragédie by okrem logistickej regresie mohli byť použité aj iné metódy. Napríklad menej prehľadné viacvrstvové kontingenčné tabuľky alebo prehľadnejšie rozhodovacie stromy.

Kurz logistickej regresie

Uvedená interpretácia výsledkov binárnej logistickej regresie zďaleka nepredstavuje všetko. Máme pre Vás pripravený kurz logistickej regresie kde sa okrem iného dozviete o:

  • binárnej logistickej regresii, ktorá umožňuje odhadnúť hodnotu dichotomickej premennej (nadobúda iba dve hodnoty) a jej pravdepodobnosti na základe ostatných číselných alebo kategorických premenných (ako je aj prezentovaný príklad dát Titanicu), 
  • interpretácii výsledkov logistickej regresie pomocou logitu, šance, pomeru šancí, pravdepodobnosti,
  • možnosti zahrnutia kategorických nezávislých premenných do modelu,
  • evaluácii modelu,
  • multinomickej logistickej regresii, ktorá umožňuje odhadnúť hodnotu multinomickej premennej (nadobúda viac ako dve hodnoty) a pravdepodobnosti jednotlivých kategórií na základe ostatných číselných alebo kategorických premenných (ako je napríklad klasifikácia poistnej udalosti do rizikových tried).

Tešíme sa na Vás.

Ing. Mgr. Milan Machalec
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuje na analytickou činnost nejen v oblasti statistiky, ale také data miningu a své odborné zkušenosti využívá v lektorské činnosti. V nemalé míře se podílí na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení v různých podnicích.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů