IBM SPSS MODELER

- nástroj pro data science

Program IBM SPSS Modeler je komplexní dataminingový nástroj, který pokrývá celý dataminingový proces od přípravy dat až po aplikaci výsledků modelů do praxe. Hlavní výhodou programu je široká škála datových manipulací a modelovacích algoritmů, které jsou v rámci datového procesu přehledně znázorněny prostřednictvím grafické posloupnosti datových operací.

Příprava dat a datové manipulace

Software IBM SPSS Modeler využívá ověřenou a celosvětově uznávanou metodologii CRISP-DM (Cross Industry Standart Process for Data Mining). Díky tomu pokrývá dataminingový proces analýzy dat ve všech jeho fázích - od porozumění úloze a jejímu cíli, přes přípravu dat, modelování, vyhodnocení až po implementaci výsledků.

Z grafického rozhraní lze jednoduše přistupovat k mnoha typům databází a k datovým souborů různých formátů.

Pro analýzu dat lze využít strukturovaná i nestrukturovaná data. Nástroj obsahuje i funkce pro práci s textovými řetězci jako je tvorba řetězců, nahrazování znaků, vyhledávání, ořezávání a odebírání mezer.

Datový audit umožňuje provést kontrolu rozdělení a kvalitu jednotlivých proměnných ještě před jejich vstupem do další analýzy dat a tvorbou predikčních modelů.

Modelování a strojové učení

IBM SPSS Modeler disponuje širokou škálou pokročilých dataminingových modelovacích nástrojů pro řešení úloh, na které může analytik ve své praxi narazit. Vybírat můžete z klasifikačních, segmentačních či asociačních algoritmů, Monte Carlo simulací, predikcí  časových řad a dalších metod pomocí rozšíření o nástroje jazyka R a Python.

Pracovní plocha s proudem se intuitivně ovládá pomocí vizuálního programování.

Model lineární regrese s ukázkou významných prediktorů.

Uzel neuronové sítě zahrnuje  vícevrstvou síť se zpětnou propagací a síť s radiální bazickou funkcí.

Reportování a vizualizace

Software nabízí širokou škálu interaktivních grafů, jako je například pavučinový graf pro analýzu vztahů v datech a mnoho dalších. Můžete provést i výběr konkrétních dat přímo z grafu pro jejich další vizualizaci nebo modelování. Navíc přímo v programu IBM SPSS Modeler získáváte i přístup k procedurám a grafům ze statistického programu IBM SPSS Statistics.

Software disponuje také grafickými výstupy pro evaluaci modelu jako je ROC křivka, Lift a Profit.

IBM SPSS Modeler nabízí i celou řadu specifických typů grafů např. populační pyramidu věku dle pohlaví.

Ukázka bodového grafu zobrazující závislost výše příjmu na věku (velikost bodů určuje počet dětí).

Další možnosti softwaru

Uživatelsky intuitivní grafické rozhraní umožňuje snadnou práci s programem a vytváření modelů i uživatelům bez hlubších technických znalostí. Pracovníci IT oddělení zase ocení jednoduchou implementaci a integraci řešení client - server do stávající IT infrastruktury.

Vizuální programování

Zpřístupnění statistických a dataminingových procedur díky jednoduchému a intuitivnímu uživatelskému rozhraní formou vizuálního programování.

Otevřenost softwaru

Datová nezávislost v přístupu k datovým skladům, databázím, Hadoop distribucím či ke klasickým textovým či excelovským souborům.

Rychlost zpracování dat

Maximální využití stávající IT infrastruktury pro dosažení maximální rychlosti zpracování dat díky delegování zpracování dat přímo do databází.

VYUŽITÍ V PRAXI

Vyberte si z typických úloh, které lze pomocí IBM SPSS Modeler a se zkušenostmi analytiků ACREA řešit.

Efektivní akvizice zákazníků

Z dat stávajících zákazníků vytvoříme model k určení typických zákazníků s jejich charakteristikami. Jejich vlastnosti poté poslouží k přesnému zacílení vašich obchodních a marketingových aktivit pro akvizici zákazníků nových.

  • Retenční kampaně
  • a churn

Na základě faktorů ovlivňujících odchod zákazníka detekujeme ty z nich, u kterých je velká pravděpodobnost jejich odchodu ke konkurenci. Můžete tak včas zakročit a zabránit jejich odchodu.

  • Analýza nákupního
  • koše

Z historických dat získáme vzory nákupního chování, asociací či sekvencí nakoupených produktů. Tyto informace můžete dále využít při sestavování balíčků produktů či  určování obsahu propagačních materiálů.

  • Segmentace
  • zákazníků

Cílem segmentace je vytvořit skupiny navzájem podobných zákazníků. Nalezení segmentů a faktorů ovlivňující jejich chování bude základem pro nastavení vaší marketingové komunikace a nabídky pro daný segment.

  • Predictive
  • maintenance

Prediktivní údržba predikuje pomocí dat plynoucích z výroby očekávané poruchy nebo detekuje anomálie ve výrobních datech. Upozorňuje, kdy by mělo dojít k servisnímu zásahu, neboť odhaduje vysoké riziko selhání stroje.

  • Predikce
  • kriminality

Dataminingové úlohy lze využít ve státní sféře při odhalování případů praní špinavých peněz, predikci kriminality, zneužití identifikačních údajů atd. Tyto úlohy vyžadují zpracování velkého objemu dat a hledání většinou netriviálních vzorů chování.

Detekce podvodů a anomálií

Detekce podvodů nachází uplatnění například při výběru daní, poskytování dotací a sociálních dávek či pojistných podvodech atd.. Základem systému bývá sada pravidel. Každé pravidlo posuzuje nezávisle prováděnou transakci a přiděluje jí dílčí rizikové skóre. Každá transakce pak získá celkové součtové skóre, jehož výše je úměrná závažnosti podezření.

  • Řízení kreditního
  • rizika

Pomocí dataminingových klasifikátorů a regresních modelů nazývaných skórovací karty umíme snížit dopady kreditního rizika, buď zavedením účinného schvalovacího procesu, který včas zamezí realizaci úvěru s vysokou pravděpodobností selhání, nebo včasnou alokací rezerv určených na pokrytí ztrát plynoucích z rizikových úvěrů.

  • Medicínský
  • výzkum

Nevíte kolik pacientů zahrnout do studie, aby byla její kvalita a nákladnost optimální? Potřebujete vyhodnotit účinnost léčebného postupu? Chcete zjistit, jaké faktory ovlivňují průběh nemoci? Důležitost využití správných statistických metod při plánování experimentu, potvrzení hypotéz i stanovení závěrů je klíčová.