Procedury pro přípravu dat: příprava dat pro modelování

V posledním článku ze série o procedurách pro přípravu dat v IBM SPSS Statistics se zaměříme na to, jak si usnadnit práci při přípravě dat pro modelování. Představíme si tři procedury, které naleznete v nabídce Transform, Prepare Data for Modeling. Nabídka Interactive je určena pro interaktivní přípravu dat, kdy si uživatel může volit, které kroky se budou realizovat. Volba Automatic je vhodná pro ty, kteří preferují pracovat spíše v automatickém režimu. Pomocí nabídky Backtransform Scores lze provést zpětnou transformaci předpovídaných hodnot cílové proměnné na základě modelu v případě, že pro přípravu dat byla užita jedna z předcházejících procedur.

Interaktivní příprava dat

Nabídka Transform, Prepare Data for Modeling, Interactive je určena k přípravě dat pro analýzu nebo modelování. Zaměřuje se především na zlepšení kvality dat a transformace proměnných, které povedou k větší rychlosti při zpracování dat a/nebo větší přesnosti modelu. Uživatel přitom může pracovat v poloautomatickém režimu nebo interaktivně volit, které kroky se budou realizovat.

Na záložce Objective určíme hlavní cíl přípravy dat:

  • Balance speed & accuracy – rychlost při zpracování dat i přesnost modelu (obojí se stejnou váhou),
  • Optimize for speed – optimalizace vzhledem k rychlosti zpracování dat,
  • Optimize for accuracy – optimalizace s ohledem na přesnost modelu,
  • Custom analysis – manuální nastavení algoritmů na záložce Settings.

Na záložce Fields specifikujeme vstupní proměnné. Ty je možné zadat manuálně (Use custom field assignment) nebo využít předdefinované role (Use predefined roles). Do pole Target (optional) lze volitelně zadat cílovou proměnnou. Ostatní vstupní proměnné přeneseme do pole Inputs.

Záložka Settings umožňuje nastavit požadované kroky přípravy dat (pokud je na záložce Objective zvolena jiná možnost než Custom analysis, odpovídají zde přednastavené volby danému cíli). V části Select an item lze zadat následující:

  • Prepare dates & times – příprava proměnných vyjadřujících datum a čas,
  • Exclude Fields – vyloučení problematických proměnných (splňujících uvedená kritéria) z analýzy,
  • Adjust Measurement – úprava způsobu měření proměnné (číselné proměnné s malým počtem hodnot se změní na ordinální a ordinální proměnné s příliš mnoha různými hodnotami na číselné),
  • Improve Data Quality – zlepšení kvality dat (nahrazení extrémních hodnot zvolenými hraničními hodnotami nebo vynechanými hodnotami, imputace vynechaných hodnot u různých typů proměnných, překódování nominálních proměnných od nejméně četné kategorie po nejčetnější)
  • Rescale Fields – změna škály proměnných,
  • Transform Fields – další typy transformací (slučování kategorií a hodnot),
  • Select And Construct – nastavení hladiny významnosti pro výběr proměnných do modelu a odvození nových proměnných kombinací existujících,
  • Name Fields – způsob odvozování názvů nových proměnných,
  • Apply Transformations – přidání nových proměnných do aktivního datového souboru nebo vytvoření nového souboru.

Na záložce Analysis se po stisknutí tlačítka Analyze v horní části okna zobrazují výsledky analýzy (například predikční jednotlivých síla proměnných) a informace o provedených akcích. Tlačítkem Clear Analysis tyto informace odstraníme.

Tlačítko Save XML v horní části okna umožňuje uložit transformace do formátu XML pro další využití (například pro zpětnou transformaci skórů).

Transformace proměnných se realizují až po spuštění procedury stiskem tlačítka Run. Následně se v datové matici zobrazí nově odvozené transformované proměnné.

Automatická příprava dat

Nabídka Transform, Prepare Data for Modeling, Automatic je rovněž určena k přípravě dat pro analýzu nebo modelování. Na rozdíl od předcházející procedury pro interaktivní přípravu dat je však zjednodušená, protože předpokládá, že uživatel bude pracovat především v automatickém režimu.

Způsob zadávání je obdobný jako v případě procedury Interactive Data Preparation, nejsou však k dispozici tlačítka Analyze, Clear Analysis a Save XML v hodní části okna a chybí záložka Analysis. Naopak na záložce Settings je navíc možné při označení volby Apply and Save uložit transformace do syntaxového souboru (Save transformations as syntax) nebo do formátu XML (Save transformations as XML).

Zpětná transformace skórů

Nabídku Transform, Prepare Data for Modeling, Backtransform Scores je možné užít ke zpětné transformaci předpovídaných hodnot cílové proměnné na základě modelu v případě, že cílová proměnná byla transformována pomocí jedné z předcházejících procedur.

Do pole Field to Backtransform zadáme proměnnou obsahující předpovídané hodnoty cílové proměnné.

V poli Suffix for new field lze upřesnit příponu názvu nové proměnné.

V poli XML file specifikujeme XML soubor s transformacemi, který byl vytvořen procedurou Interactive Data Preparation nebo Automatic Data Preparation.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.  

společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů