Košík je prázdný

Procedury pro přípravu dat: optimální kategorizace

11.1. 2021společnost ACREA6189x0 Komentářů

Ve třetím článku ze série o procedurách pro přípravu dat v IBM SPSS Statistics si představíme proceduru Optimal Binning, která umožňuje kategorizovat číselnou proměnnou optimálním způsobem vzhledem k cílové kategorizované proměnné. Ve verzi 27 je nově zařazená do základního modulu Base (dříve modul Data Preparation).

K čemu je užitečná procedura Optimal Binning

Kategorizaci číselné proměnné lze provést mnoha různými způsoby. Většina z nich vychází pouze z rozložení dané proměnné – cílem je například zajistit, aby byly intervaly stejně široké, kategorie pokud možno stejně zastoupené, nebo oddělit vzdálenější hodnoty definované jako průměr +/- zvolený násobek směrodatné odchylky. Někdy je však nutné brát v úvahu také chování této proměnné vzhledem k jiné cílové proměnné.

Procedura Optimal Binning je určená k optimální kategorizaci jedné nebo více číselných proměnných vzhledem k dané kategorizované proměnné. Hledá tedy takové body, které rozdělí hodnoty vstupní proměnné do intervalů tak, aby výsledná proměnná měla co nejsilnější vztah k cílové proměnné. Nově odvozenou kategorizovanou proměnnou (proměnné) lze následně užít pro další analýzu. Algoritmus je založený na metodě MDLP (minimal description length principle) a na statistice Entropie.

Tento přístup nachází široké uplatnění při přípravě dat pro modelování. Například před užitím logistické regrese i dalších metod, které jsou citlivé na extrémní hodnoty nebo silně zešikmená data, je vhodnější vstupní proměnné s problematickým rozloženým nejprve kategorizovat. V řadě situací je však předmětem zájmu přímo nalezení dělicích bodů – například v medicíně při zkoumání, jaké hodnoty určitého parametru jsou již rizikové vzhledem k určitému onemocnění.

Způsob zadávání

Dialogové okno procedury otevřeme z nabídky Transform, Optimal Binning.

Na záložce Variable zadáme do pole Variables to Bin číselné proměnné, které mají být kategorizovány, a do pole Optimize Bins with Respet To kategorizovanou proměnnou, vzhledem k níž má být kategorizace optimální.

Na záložce Output označíme požadované výstupy:

Endpoints for bins – nalezené optimální dělicí body pro každou kategorizovanou vstupní číselnou proměnnou a četnosti řídící kategorizované proměnné ve skupinách,
Descriptive statistics for variables that are binned – popisné statistiky vstupních číselných proměnných (počet, minimum, maximum, počet různých hodnot a počet nalezených dělicích bodů),
Model entropy for variables that are binned – hodnota statistiky Entropie pro každou kategorizovanou vstupní číselnou proměnnou vzhledem k řídící kategorizované proměnné.

Na záložce Save volíme, jaké informace mají být uloženy.

V části Save Variables to Active Dataset určíme, zda mají být kategorizované proměnné uloženy do datové matice (Create variables that contain binned data values) a zda v případě konfliktu názvů mají být nahrazeny dříve vytvořené proměnné (Replace existing variables that have the same name).

V části Save Binning Rules as Syntax lze zadat uložení pravidel pro odvození kategorizovaných proměnných do syntaxe.

Na záložce Missing Values volíme způsob práce s vynechanými hodnotami:

Pairwise – pro každou dvojici (číselná proměnná a řídící kategorizovaná) samostatně,
Listwise – pokud má kterákoliv ze vstupních proměnných vynechanou hodnotu, je případ vyloučen.

Uživatelem definované vynechané hodnoty jsou vždy považované za neplatné a při kategorizaci jsou převedeny na systémové vynechané hodnoty.

Na záložce Options lze provést další nastavení, která se týkají urychlení algoritmu pro velké datové soubory (Preprocessing), spojení řídce zastoupených kategorií (Sparsely Populated Bins), rozhodnutí, do které z kategorií budou zahrnuty dělicí body (Bin Endpoints) a zda krajní kategorie budou od mínus nekonečna resp. do plus nekonečna nebo budou začínat nejnižší resp. končit nejvyšší hodnotou v datech.

Příklad

Užití procedury Optimal Binning si ukážeme na příkladě kategorizace věku vzhledem k proměnné Pocit štěstí celkově. Tato proměnná je hodnocena na škále od 1= „vůbec ne šťastný/á“ do 4= „velmi šťastný/á“. Rozložení četností v souboru zobrazuje následující tabulka.

V dialogovém okně procedury Optimal Binning na záložce Variable zadáme do pole Variables to Bin proměnnou Věk respondenta, do pole Optimize Bins with Respect To proměnnou Pocit štěstí celkově. Na záložce Save označíme volbu Create variables that contain binned data values.

Ve výstupovém okně se zobrazí následující tabulka, která doporučuje jako optimální rozdělit věk do dvou kategorií: méně než 39 let a 39 a více let. Dále jsou zde zobrazené četnosti proměnné Pocit štěstí celkově v těchto skupinách.

Zároveň se v datové matici vytvořila nová proměnná s takto definovanými kategoriemi, kterou můžeme využít pro další analýzu. Pojmenujeme ji Věkové kategorie.

Pro přehlednější porovnání pocitu štěstí v takto odhozených věkových kategoriích využijeme proceduru Crosstabs. Z řádkových procent je vidět, že ve skupině méně než 39 let jsou více zastoupené kategorie celkem šťastný/á a velmi šťastný/á. Naopak ve věkové skupině 39 a více let se častěji vyskytují odpovědi vůbec ne šťastný/á a ne moc šťastný/á

Výsledek testu chí-kvadrát (tabulka Chi-Square Tests, řádek Pearson Chi-Square) ukazuje, že skupiny se od sebe statisticky významně liší.

společnost ACREA

ACREA CR je českou analytickou společností s tradicí od roku 1995. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.

Komentáře

Přidat komentář Zrušit odpověď

Tato stránka používá cookies

Na stránkách používáme soubory cookies. Některé jsou nezbytné pro fungování stránek, jiné nám umožňují poskytnout vám lepší zkušenost při návštěvě našich stránek nebo zobrazování reklamy, pomáhají nám analyzovat návštěvnost a stránky zlepšovat. Více informací

Nastavení cookies Přijmout vše

Souhlas s používáním cookies

Cookies jsou malé soubory, které se dočasně ukládají ve vašem počítači a pomáhají nám k lepší uživatelské zkušenosti na našich stránkách. Cookies používáme k personalizaci obsahu stránek a reklam, poskytování funkcí sociálních sítí a k analýze návštěvnosti. Informace o vašem používání našich stránek také sdílíme s našimi partnery v oblasti sociálních sítí, reklamy a analýzy, kteří je mohou kombinovat s dalšími informacemi, které jste jim poskytli nebo které shromáždili při vašem používání jejich služeb.

Ze zákona můžeme na vašem zařízení ukládat pouze soubory cookie, které jsou nezbytně nutné pro provoz těchto stránek. Pro všechny ostatní typy souborů cookie potřebujeme vaše svolení. Budeme vděční, když nám ho poskytnete a pomůžete nám tak, naše stránky a služby zlepšovat. Svůj souhlas s používáním cookies na našem webu můžete samozřejmě kdykoliv změnit nebo odvolat. Více informací

Jednotlivé souhlasy

Nezbytné - aby stránky fungovaly, jak mají.

Nezbytné soubory cookie pomáhají učinit webové stránky použitelnými tím, že umožňují základní funkce, jako je navigace na stránce a přístup k zabezpečeným oblastem webové stránky. Bez těchto souborů cookie nemůže web správně fungovat.

Preferenční - abychom si pamatovali vaše preference.

Preferenční cookies umožňují, aby si stránka pamatovala informace, které upravují, jak se stránka chová nebo vypadá. Např. vaše přihlášení, obsah košíku, zemi, ze které stránku navštěvujete.

Statistické - abychom věděli, co na webu děláte a co zlepšit.

Statistické cookies pomáhají provozovateli stránek pochopit, jak návštěvníci stránek stránku používají, aby mohl stránky optimalizovat a nabídnout jim lepší zkušenost. Veškerá data se sbírají anonymně a není možné je spojit s konkrétní osobou.

Marketingové - abychom vám ukazovali pouze relevantní reklamu.

Marketingové cookies se používají ke sledování pohybu návštěvníků napříč webovými stránkami s cílem zobrazovat jim pouze takovou reklamu, která je pro daného člověka relevantní a užitečná. Veškerá data se sbírají a používají anonymně a není možné je spojit s konkrétní osobou.

Uložit nastavení

Přijmout vše

Procedury pro přípravu dat: optimální kategorizace

Přidat komentář Zrušit odpověď

Nepropásněte další blogový článek