Zpět

Dataminingové modely: Seskupování a detekce anomálií

  • Termín: Bude upřesněn
  • Místo:

Počet výukových dnů:
1 (8 vyučovacích hodin)

Úroveň kurzu:
středně pokročilý

Ne všechny dataminingové úlohy mohou být řešeny pomocí supervizovaných predikčních modelů, kdy pro učení máme k dispozici historická data s cílovou proměnnou. Seskupování představuje nesupervizované modelovací postupy, které jsou určeny k hledání podobných nebo naopak anomálních případů v datech. Své uplatnění najdou všude tam, kde neznáme historické hodnoty cílových atributů nebo se vzory chování mění tak rychle, že modely naučené na historických datech nejsou aktuální již v době, kdy vznikají.

Seskupovací algoritmy se hojně využívají v marketingu, kde slouží jako nástroj pro přípravu segmentace. V data minigu se seskupovací postupy používají k redukci dimenzionality, jako součást metamodelů a především pro detekci anomálního chování.

Cíl vzdělávacího programu:

V kurzu se účastníci seznámí s často používanými seskupovacími algoritmy, naučí se pro ně připravovat data a využijí jejich výstupy nejen k detekci anomálního chování.

Kurz je určen:

Kurz je určen analytikům a dataminerům, kteří chtějí budovat predikční modely nad daty bez cílové proměnné, např. v úlohách, kde je pomocí modelů potřeba upozornit na neobvyklé chování.

Předpoklady:

Pro úspěšné absolvování kurzu postačí uživatelská znalost práce na počítači a znalost matematiky na středoškolské úrovni. Jako úvod do problematiky data miningu doporučujeme kurz Data mining – dolování znalostí z databází.

Přínos účasti na kurzu:

Účastníci se v kurzu naučí klasifikovat nové případy do předem neznámých kategorií pomocí seskupovacích metod. Budou umět používat seskupovací postupy k detekci anomálních a podezřelých případů.

Popis obsahu a postupu:

V první části kurzu představíme účastníkům metody kompetičního nesupervizovaného učení využívané k detekci klastrů v datech. Ukážeme, jak tyto postupy mohou být využity k detekci mnohorozměrných neobvyklých případů. Ve druhé části si účastníci vyzkouší získané znalosti na praktických příkladech. Praktická část výuky probíhá za podpory softwaru IBM SPSS Modeler.

Program kurzu*:

  1. komparace vícerozměrných profilů
  2. měření podobnosti, vzdálenost
  3. příprava dat pro seskupování
  4. kompetiční učení
  5. algoritmus k-means
  6. dvoustupňové seskupování
  7. Kohonenovy mapy
  8. evaluace kvality seskupení
  9. detekce vícerozměrných anomálií
  10. skórování anomálních případů

* Ve výjimečných případech změna programu vyhrazena dle zaměření a zkušeností dané skupiny účastníků.

Používaný software:

IBM SPSS Modeler Professional.