Kategorizácia číselných premenných v IBM SPSS Modeler

Proces kategorizácie spočíva v tvorbe nových premenných založených na zoskupení hodnôt existujúcich premenných do kategórií. 

Kategorizáciu môžeme použiť pri spojitej premennej, kedy vytvoríme novú premennú, ktorá obsahuje intervaly spojitej premennej alebo pri zoskupení väčšieho množstva ordinálnych kategórií  do menších súborov kategórií. 

Proces kategorizácie budeme realizovať v softvére IBM SPSS Modeler, kde pri tvorbe kategórií použijeme uzol Binning zo záložky Field Operations, pomocou ktorého môžeme automaticky vytvoriť intervaly – kategórie na základe nasledovných techník:

  • Fixed width – intervaly s rovnakou šírkou
  • Tiles (Equal count and sum) – intervaly tvorené tak, že obsahujú rovnaký počet pozorovaní (napr. kvartily, decily, percentily, atď.) alebo suma hodnôt v každej skupine je rovnaká
  • Ranks – metóda zabezpečí tvorbu absolútneho a relatívneho poradia hodnôt, ale nie kategórie 
  • Mean/standard deviation – intervaly tvorené na základe priemeru, ku ktorému sa pripočítavajú a odpočítavajú smerodajné odchýlky
  • Optimal – intervaly tvorené na základe kategorickej premennej, ktorá je silno asociovaná s premennou rozdeľovanou do intervalov

Dolná časť dialógu sa automaticky mení na základe zvolenej techniky.

Ako príklad si ukážeme tvorbu intervalov spojitej číselnej premennej cubicInches, ktorá vyjadruje objem motora a je silno asociovaná s premennou place. Ta vyjadruje kontinent, kde bolo dané auto vyrobené. Použijeme  techniku Optimal.

Spojitú premennú zadávame do poľa Bin fields a kategorizovanú premennú do poľa Supervizor field, tak ako to je uvedené na obrázku 1. Aby sme zabránili následnej zmene hraníc intervalov, v dôsledku zmeny obsahu dátovej matice aktivujeme voľbu Read from Bin Values if available. V záložke Bin Values po načítaní hodnôt pomocou tlačítka Read Values máme zobrazený počet intervalov, hranice a ich percentuálny podiel. Existuje taktiež možnosť ručného zásahu, kde na základe takto vytvorených intervalov si môžeme vygenerovať uzol Derive.

Obrázok 1. Nastavenie uzla Binning technika Optimal, vytvorenie kategórií a generovania uzla Derive.

Alternatívne definovanie kategórií

Kategorizáciu premennej môžeme uskutočniť aj pomocou histogramu (nájdeme ho na záložke Graphs), kde si zaktivujeme tvorbu intervalov –  Interactions Activate band selection (pomocou menu View a aktiváciou ponuky Interaction) a klikaním, prípadne následným ťahaním zvislých úsečiek si rozdelíme analyzovanú premennú do intervalov z rôznou šírkou. V menu Edit – Graph Bands si premenujeme novovytvorené intervaly a pomocou menu Generate a ponuky Derive Node for Bands si vytvoríme uzol Derive pre takto definované intervaly. 

Obrázok 2. Tvorba intervalov na základe vizuálneho posúdenia rozdelenia premennej 
a generovanie uzla Derive.

Potřebujete poradit, jak využívat vaše data? Chcete zefektivnit a urychlit vaši práci? Nevíte, jaký software je pro vaše řešení ten správný? Využijte naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Stefan Kováč, PhD.
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zabývá analytickou činností v oblasti statistiky, data miningu, reportování dat a své odborné zkušenosti využívá také v lektorské činnosti. Podílí se na odborné konzultační činnosti pro oblast aplikace a využití softwarových řízení v malých a středních podnicích.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů