Košík je prázdný

Víte, jak správně připravit data pro analýzu?

30.10. 2018společnost ACREA17714x0 Komentářů

Příprava dat je nutným krokem, který předchází každé analýze a zásadním způsobem ovlivňuje kvalitu získaných závěrů. Ačkoliv mnoho lidí předpokládá, že práce analytika zahrnuje především činnosti jako reportování, testování hypotéz nebo modelování, dlouhodobá zkušenost ukazuje, že zhruba osmdesát procent času je nutné věnovat přípravě dat. Tato investice se však rozhodně vyplatí, protože bez kvalitních a dobře vyčištěných dat dostanete pouze zkreslené, zavádějící a nespolehlivé výsledky. Řadě problémů lze také předejít, pokud se již při plánování výzkumu zamyslíte například nad způsobem kódování proměnných. Víte ale, jak data správně připravit a jaké konkrétní kroky realizovat?

Příprava datové matice

Jednotlivé kroky přípravy se mohou lišit podle typu dat (výběrová data, záznamy z databáze, experimentální data apod.) i dalších specifik řešené úlohy. Zde se zaměříme na nejčastější okruhy problémů, které se v této souvislosti objevují. Konkrétní postup do určité míry závisí i na užívaném softwaru, níže budeme vycházet z programu IBM SPSS Statistics.

Prvním krokem je načtení dat do požadovaného formátu (SAV). Ačkoliv lze data pořizovat i přímo v IBM SPSS Statistics, není to běžné. Nejčastěji bývají uložena v Excelu, v textovém souboru či v nějaké databázi. Z těchto formátů je nutné data načíst a případně také spojit, pokud se nacházejí ve více souborech (tabulkách). Program IBM SPSS Statistics je v tomto směru velmi otevřený a umožňuje snadný import dat téměř z libovolného formátu.

Data musí mít vždy strukturu datové matice, tj. obdélníku, kde se v řádcích nacházejí případy a ve sloupcích proměnné. Případy mohou reprezentovat například respondenty, kteří se zúčastnili výzkumu, proměnné otázky v dotazníku. Někdy je nutné do datové matice vybrat pouze část případů (pokud se například analýza vztahuje jen k určitému období či regionu), data agregovat (jednotlivé případy potom zastupují určité skupiny případů z původního souboru, například kraje) či jiným způsobem změnit jejich strukturu.

Následně datový soubor vybavíme informacemi o proměnných (tzv. metadata). Definujeme typy a formáty proměnných, popisy proměnných, popisy hodnot, specifikujeme kódy, které vyjadřují vynechané hodnoty v datech a další. Výhodou tohoto postupu je, že informace zadáme pouze jednou a poté se již automaticky užívají ve všech tabulkách, grafech či jiných výstupech, které vytvoříme.

V rámci přípravy dat potřebujeme často také odvodit nové proměnné na základě existujících (například vypočítat různé indexy, poměrové proměnné apod.) nebo je jiným způsobem upravit pro analýzu. Patří sem například slučování kategorií (spojování podobných nebo málo zastoupených kategorií) či kategorizace číselných proměnných.

Čistění a ověřování kvality dat

Poté, co je připravena datová matice, provedeme kontrolu a čištění dat. Nejprve identifikujeme podezřelé, neobvyklé nebo chybné případy, proměnné a hodnoty v datech. Následně volíme nejvhodnější způsob, jak daný problém řešit.

Základem je obvykle analýza rozložení jednotlivých proměnných, jejímž cílem je odhalit problematické distribuce. Mezi takové patří například konstantní proměnné, kategorizované proměnné s málo zastoupenými kategoriemi nebo naopak takové, kde většina případů (obvykle více než 85%) patří do jedné kategorie. U číselných proměnných se zaměřujeme například na odlehlá a extrémní pozorování. Pokud v datech existuje jedna nebo více proměnných, které identifikují jednotlivé případy, kontrolujeme jejich kompletnost a zda se nevyskytují duplikátní identifikátory.

U jednotlivých proměnných rovněž ověříme, zda se data nacházejí v povoleném rozsahu. Například u kategorizované proměnné Vzdělání s kódy 1, 2, 3 a 4 by se neměly vyskytovat jakékoliv jiné kódy ani neceločíselné hodnoty. Jednou z možností, jak tento problém řešit, je zavedení tzv. pravidel. Pravidla se mohou vztahovat pouze k jedné proměnné, nebo propojovat více proměnných. Příkladem takové situace je vztah mezi věkem a starobním důchodem – osoba, která pobírá starobní důchod, by měla dosáhnout alespoň určitého minimálního věku. Pravidla nejprve definujeme a poté provedeme jejich kontrolu.

Pokročilé problémy

Kromě základní přípravy a čištění dat je často nutné řešit také náročnější otázky, například vynechané hodnoty nebo vážení. Ačkoliv se tyto situace v praxi vyskytují zcela běžně, jejich řešení obvykle není jednoduché a vyžaduje již značné zkušenosti s analýzou dat, někdy i pokročilé znalosti statistických metod. Přitom platí, že nevhodným postupem můžeme často napáchat více škody než užitku.

S vynechanými hodnotami se setkáváme ve výzkumných šetřeních, v plánovaných experimentech i při analýze dat z databází. Důvodem může být, že část respondentů zapomene či záměrně neodpoví na některé otázky v dotazníku, nepodaří se realizovat všechna měření v experimentu, některé údaje v databázi chybí apod. Prvním krokem řešení je obvykle zjištění závažnosti problému – kolika procent případů, proměnných a hodnot v datech se týká. Dále je nutné zaměřit se na strukturu vynechaných hodnot. Jestliže například zjistíme, že se vynechané hodnoty vyskytují pouze u několika málo případů nebo méně důležitých proměnných, můžeme uvažovat o jejich vyloučení. Pokud se ukáže, že hodnoty v datech chybí zcela náhodně, řešení je většinou poměrně jednoduché. Jestliže zjistíme vztah k některým proměnným v datech, je nutné užít pokročilejší metody a tyto proměnné zahrnout do modelu jako prediktory. Nejobtížnější je však situace, kdy vynechané hodnoty závisejí přímo na hodnotě, která měla být pozorována (například při zjišťování příjmů tuto informaci častěji odmítají sdělovat lidé s vyšším příjmem). Na základě zjištěných informací potom volíme nejvhodnější přístup, který může zahrnovat vyřazení případů nebo proměnných s vynechanými hodnotami, doplnění vynechaných hodnot pomocí vhodných statistických postupů a analýzu kompletních dat, nebo využití metod, které umožňují provést odhady na datech s vynechanými hodnotami (například věrohodnostní metody).

V řadě situací je třeba data vážit, aby měl soubor požadovanou strukturu. V datech z výběrových šetření je obvykle nutné zajistit reprezentativnost souboru pomocí designových a/nebo poststratifikačních vah. Jiným důvodem vážení může být nonresponse, kdy vahami zohledňujeme skutečnost, že se některé vybrané jednotky výzkumu neúčastnily vůbec (například z důvodu odmítnutí). O těchto případech většinou nemáme k dispozici žádnou informaci a jejich vynechání může způsobit vychýlení souboru. Zároveň se však jedná o nejvíce rozporuplný typ vah, který může při nevhodné aplikaci výsledky více poškodit než zlepšit. Pokud to lze, snažíme se tedy nonresponse především v maximální míře předcházet způsobem organizace výzkumu. Zavedení vah je někdy nutné také při analýze agregovaného souboru. Podobně jako při práci s vynechanými hodnotami, i pro konstrukci vah však platí, že vyžaduje zkušeného analytika a je nutná opatrnost. Špatné váhy mohou způsobit dokonce ještě větší zkreslení výsledků, než pokud bychom data nevážili vůbec.

Závěr

Příprava dat je časově náročnou záležitostí. Zahrnuje základní přípravu datové matice, čištění a ověřování kvality dat i další kroky vycházející z konkrétní situace a řešené úlohy. Věnovat jí čas se však rozhodně vyplatí, protože nejen usnadní následnou analýzu, ale především zásadním způsobem ovlivňuje kvalitu získaných závěrů. Tyto činnosti mohou také usnadnit specializované moduly programu IBM SPSS Statistics, například IBM SPSS Data Preparation určený pro přípravu a čištění dat nebo IBM SPSS Missing Values zaměřený na práci s vynechanými hodnotami.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

společnost ACREA

ACREA CR je českou analytickou společností s tradicí od roku 1995. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.

Komentáře

Přidat komentář Zrušit odpověď

Tato stránka používá cookies

Na stránkách používáme soubory cookies. Některé jsou nezbytné pro fungování stránek, jiné nám umožňují poskytnout vám lepší zkušenost při návštěvě našich stránek nebo zobrazování reklamy, pomáhají nám analyzovat návštěvnost a stránky zlepšovat. Více informací

Nastavení cookies Přijmout vše

Souhlas s používáním cookies

Cookies jsou malé soubory, které se dočasně ukládají ve vašem počítači a pomáhají nám k lepší uživatelské zkušenosti na našich stránkách. Cookies používáme k personalizaci obsahu stránek a reklam, poskytování funkcí sociálních sítí a k analýze návštěvnosti. Informace o vašem používání našich stránek také sdílíme s našimi partnery v oblasti sociálních sítí, reklamy a analýzy, kteří je mohou kombinovat s dalšími informacemi, které jste jim poskytli nebo které shromáždili při vašem používání jejich služeb.

Ze zákona můžeme na vašem zařízení ukládat pouze soubory cookie, které jsou nezbytně nutné pro provoz těchto stránek. Pro všechny ostatní typy souborů cookie potřebujeme vaše svolení. Budeme vděční, když nám ho poskytnete a pomůžete nám tak, naše stránky a služby zlepšovat. Svůj souhlas s používáním cookies na našem webu můžete samozřejmě kdykoliv změnit nebo odvolat. Více informací

Jednotlivé souhlasy

Nezbytné - aby stránky fungovaly, jak mají.

Nezbytné soubory cookie pomáhají učinit webové stránky použitelnými tím, že umožňují základní funkce, jako je navigace na stránce a přístup k zabezpečeným oblastem webové stránky. Bez těchto souborů cookie nemůže web správně fungovat.

Preferenční - abychom si pamatovali vaše preference.

Preferenční cookies umožňují, aby si stránka pamatovala informace, které upravují, jak se stránka chová nebo vypadá. Např. vaše přihlášení, obsah košíku, zemi, ze které stránku navštěvujete.

Statistické - abychom věděli, co na webu děláte a co zlepšit.

Statistické cookies pomáhají provozovateli stránek pochopit, jak návštěvníci stránek stránku používají, aby mohl stránky optimalizovat a nabídnout jim lepší zkušenost. Veškerá data se sbírají anonymně a není možné je spojit s konkrétní osobou.

Marketingové - abychom vám ukazovali pouze relevantní reklamu.

Marketingové cookies se používají ke sledování pohybu návštěvníků napříč webovými stránkami s cílem zobrazovat jim pouze takovou reklamu, která je pro daného člověka relevantní a užitečná. Veškerá data se sbírají a používají anonymně a není možné je spojit s konkrétní osobou.

Uložit nastavení

Přijmout vše