Objem elektronických dát z roka na rok exponenciálne narastá. V 21. storočí sa už žiadna sféra nezaobíde bez analýzy dát a potreby spracovávať veľké objemy dát pochádzajúcich z rozličných dátových zdrojov. Či už je to štátna, komerčná alebo akademická sféra.
Samotná analýza dát predstavuje len veľmi malú časť celkového procesu spracovania dát určitého projektu. Síce pre väčšinu analytikov sa jedná o najzaujímavejšiu fázu, v praxi je však často nutné venovať pozornosť aj fázam predchádzajúcim ako je plánovanie, zber dát, prístup k dátam a ich príprava. Ak budú do fáze analýzy dát vstupovať nekvalitné dáta (chybné, nezmyselné a pod.), nemôžeme očakávať ani kvalitné výstupy. V angličtine sa na to používa výraz “garbage in, garbage out” (tzv. GIGO).
Cieľom analýzy dát je získať užitočné informácie a znalosti, ktoré nám poslúžia ako podpora pri rozhodovacích procesoch. Fáza analýzy dát má viacero prístupov v závislosti od realizovaného projektu. Dve základné triedenia sú na štatistickú analýzu dát a dataminingovú analýzu dát.
Charakteristickou črtou štatistickej analýzy dát je získať informáciu z dát, správne ju interpretovať a previesť na znalosť, ktorá bude následne využitá pri rozhodovaní. K tomuto účelu slúži široká škála štatistických metód od najjednoduchších popisných štatistík, jednorozmerných metód až po mnohorozmerné metódy. Najčastejšie analýza prebieha na výberovom súbore, pomocou ktorého sa snažíme robiť závery a zovšeobecnenia platné o základnom súbore, z ktorého výberový súbor pochádza.
Príkladom môžu byť dáta o výskume spokojnosti zákazníkov so službami obchodného reťazca. Jednotlivé spokojnosti boli merané na škále od 1 (veľmi nespokojný) do 7 (veľmi spokojný). Pomocou popisnej štatistiky priemeru by sme zistili, že na základe výberového súboru sú v priemere najviac spokojný s umiestnením predajní a najmenej s priestrannosťou. Táto informácia je znázornená vo forme tabuľky na Obrázok 1.
Obrázok 1: Popisné štatistiky priemer a počet platných prípadov pre jednotlivé spokojnosti
Zistené hodnoty priemeru však vypovedajú o výberovom súbore a pokiaľ by sme chceli robiť závery napríklad o tom, či zákazníci nie sú ani spokojní ani nespokojní s jednotlivými službami, t.j. priemerné spokojnosti sú rovné hodnote 4, museli by sme realizovať štatistické testovanie. Na základe výsledkov jednovýberových T-testov by sme zistili, že na 5 % hladine významnosti nezamietame túto nulovú hypotézu len pre čistotu predajní. To znamená, že štatisticky významne sú skôr spokojný s umiestnením predajní a menej spokojný s ostatnými spokojnosťami mimo čistoty predajní. Výsledky jednovýberových T-testov sú vidieť na Obrázok 2.
Obrázok 2: Výsledky jednovýberových T-testov
Neodmysliteľnou súčasťou štatistickej analýzy dát sú aj grafy, ktoré nám slúžia pre prehľadné zobrazenie informácie v dátach, základných vzťahov v dátach alebo výsledkov pokročilejších štatistických metód. Informáciu o priemerných hodnotách jednotlivých spokojností môžeme znázorniť pomocou stĺpcového grafu priemerov, ktorý je na Obrázok 3.
Obrázok 3: Stĺpcový graf priemerov
Takto by sme v našej štatistickej analýze dát mohli pokračovať ďalej a zisťovať napríklad existenciu rozdielov medzi jednotlivými spokojnosťami, vzťahu medzi spokojnosťami a pohlavím prípadne vzdelaním a pod. Informácie a znalosti získané štatistickou analýzou dát môžu byť následne využité obchodným reťazcom k zvýšeniu celkovej spokojnosti alebo jednotlivých čiastkových spokojností, ktoré má viesť k zvýšeniu tržieb a zisku obchodného reťazca.
Dataminingová analýza dát je charakteristická objavovaním významných netriviálnych vzorov, závislostí a trendov cieleným preskúmavaním veľkých objemov dát. Tiež sa využívajú metódy štatistickej analýzy dát ako sú lineárna regresia, logistická regresia a pod. Kombinujú sa však aj s inými metódami. Napríklad metódami pre odhaľovanie pravidiel alebo umelej inteligencie. Na rozdiel od štatistickej analýzy dát sa však nemusí klásť veľký dôraz na interpretáciu výsledkov, ale najmä na tvorbu čo najkvalitnejších prediktívnych modelov, ktoré budú následne automatizovane využívané pri rozhodovacích procesoch. Dôraz sa tak kladie na overovanie presnosti a funkčnosti modelov po ich reálnom nasadení do produkčného prostredia. Najčastejšie takáto analýza prebieha na úplnom súbore prípadne na jej podmnožine, ktorá však vznikla cieleným výberom pre konkrétny účel projektu.
Ako príklad môžeme uviesť aplikačný skóring. Finančná inštitúcia poskytujúca úvery potrebuje pri každej žiadosti o úver poznať, či po jeho poskytnutí klientovi sa v budúcnosti klient dostane do problémov s jeho splácaním až sa úver stane zlyhaným. Na základe historických dát o klientoch, ktorým bol už úver poskytnutý sa vytvorí niekoľko prediktívnych modelov, ktorých prediktívna schopnosť sa porovná rozličnými mierami prípadne grafmi a vyberie najvhodnejší pre nasadenie do produkčného prostredia. Príklad porovnania kvality jednotlivých modelov pomocou ROC krivky je znázornený na Obrázok 4. Je vidieť značné preučenie modelu neurónových sietí ($N-default) a rozhodovacieho stromu CHAID ($R-default) na tréningovej množine oproti testovacej množine. V tomto ohľade sa ukazuje najvhodnejší model logistickej regresie ($L-default).
Obrázok 4: ROC krivky pre model logistickej regresie, neurónových sietí a rozhodovacieho stromu CHAID
Samostatnú skupinu analýzy dát by mohli predstavovať neštruktúrované dáta ako sú text, obraz, video alebo zvuk. U nich je potrebné najskôr takéto dáta previesť na štruktúrované a následne sa využívajú metódy a techniky známe zo štatistickej alebo dataminingovej analýzy dát.
Po analýze dát zvyknú nasledovať ďalšie fázy celkového procesu spracovania dát ako je reportovanie alebo deployment. Fáza analýzy dát, rovnako ako aj ostatné fázy, je však ťažko realizovateľná bez podpory kvalitného softvéru a znalosti postupov a metód využívaných v tejto fáze. Pre štatistickú analýzu dát je vhodným nástrojom IBM SPSS Statistics a dataminingovú analýzu dát IBM SPSS Modeler. Pre oblasť postupov a metód máme v našej ponuke zameraných množstvo kurzov. To, čo pred pár rokmi bolo takmer nemožné a ťažko realizovateľné, sa vhodným výberom softvéru a služieb stáva možným.
V úloze je počítán aritmetický průměr z pořadové proměnné, což ze statistického hlediska není přípustné. V tomto případě je třeba použít nějaký robustní odhad střední hodnoty (např. medián).
Pán Miroslav,
ďakujem za komentár a záujem o publikovaný článok. Myslím, že použité slovné spojenia “není přípustné” alebo “je třeba” sú príliš silné. Takéto slovné spojenia sú vhodné napríklad pri priamom zahrnutí nominálnych kategorických premenných do lineárnej regresie. Určite nie pre prezentovaný článok. Mnohokrát samotní užívatelia požadujú akúsi kuchársku knižku, ktorú budú následne aplikovať na všetky analýzy. Napríklad Vami uvedený príklad, že ak analyzujú ordinálnu premennú a chcú spočítať mieru polohy (strednú hodnotu), majú použiť medián atď. To, že takéto zovšeobecnenia je možné nájsť v niektorých knižkách, na internete alebo rozličných kurzoch neznamená, že žiadna iná miera polohy alebo štatistická metóda nie je prípustná pre riešený problém. Na jeden problém môže existovať a spravidla aj existuje viacero prístupov. Potrebné je však mať znalosť jednotlivých štatistických metód, ich predpokladov a v neposlednom rade samotných dát. Ak sa bavíme o miere polohy priemer, tak on je citlivý na extrémne hodnoty a teda výrazne zošikmené dáta. V takomto prípade je vhodnejšou mierou polohy medián, ktorý nie je citlivý na extrémne hodnoty. Pokiaľ sú však dáta symetrické, hodnota mediánu bude rovná hodnote priemeru. Ak by sme sa pozreli na rozloženie premenných v uvedenom článku zistili by sme, že sú pomerne symetrické. Vzhľadom na to, že v článku som následne aplikoval jednovýberový T-test a nie neparametrický test, prvotná tabuľka obsahovala priemery. Napríklad v sociálnych vedách sa používajú na analýzu ordinálnych premenných aj metódy určené pre analýzu číselných premenných. Je to bežná prax. Radi Vás uvidíme na niektorom z našich kurzov, kde aj na takéto otázky týkajúce sa špeciálnych prípadov/situácií odpovedáme.