Zpět

Dataminingové modely: Logistická regrese a optimální kategorizace

  • Termín: Bude upřesněn
  • Místo:

Počet výukových dnů:
1 (8 vyučovacích hodin)

Úroveň kurzu:
středně pokročilý

Použití logistické regrese v data miningu má svou tradici. Logistická regrese slouží k predikci kategorizovaných veličin a bývá užívána ke konstrukci skórovacích karet.

Cíl vzdělávacího programu:

Cílem kurzu je především seznámení účastníků s principem využití binární logistické regrese, poté bude prezentována i obecnější nominální regrese. Logistická regrese klade velké nároky na přípravu dat, proto je do kurzu zařazena i optimální kategorizace, pomocí které se vhodným způsobem transformují číselné vstupní proměnné tak, aby výsledný model byl dostatečně robustní. Kromě optimální kategorizace kurz představí i metody výběru vstupních proměnných do regresního modelu.

Kurz je určen:

Kurz je určen analytikům a dataminerům, kteří chtějí vytvářet snadno nasaditelné dataminingové modely s možností interpretce.

Předpoklady:

Pro úspěšné absolvování kurzu postačí uživatelská znalost práce na počítači a znalost matematiky na středoškolské úrovni. Jako úvod do problematiky data miningu doporučujeme kurz Data mining – dolování znalostí z databází.

Přínos účasti na kurzu:

Účastníci se naučí připravit proměnné a vytvářet skórovací karty metodou logistické regrese.

Popis obsahu a postupu:

Výuka probíhá za podpory softwaru IBM SPSS Modeler. Po představení algoritmu následuje praktické procvičování přípravy dat, budování modelu, interpretace, evaluace a nasazení do praxe.

Program kurzu*:

  1. pravděpodobnostní popis rozdělení kategorizované proměnné
  2. logistická transformace
  3. odhad regresních koeficientů a jejich statistiky
  4. metody iteračního výběru vstupních proměnných
  5. skóre a skórovací karty
  6. transformace kategorizovaných vstupů, indikátorové kontrasty
  7. optimální kategorizace číselných vstupů
  8. nominální regrese
  9. evaluační statistiky a grafy

* Ve výjimečných případech změna programu vyhrazena dle zaměření a zkušeností dané skupiny účastníků.

Používaný software:

IBM SPSS Modeler Professional.