Víte, jak správně připravit data pro analýzu?

Kurzy ACREA

Příprava dat je nutným krokem, který předchází každé analýze a zásadním způsobem ovlivňuje kvalitu získaných závěrů. Ačkoliv mnoho lidí předpokládá, že práce analytika zahrnuje především činnosti jako reportování, testování hypotéz nebo modelování, dlouhodobá zkušenost ukazuje, že zhruba osmdesát procent času je nutné věnovat přípravě dat. Tato investice se však rozhodně vyplatí, protože bez kvalitních a dobře vyčištěných dat dostanete pouze zkreslené, zavádějící a nespolehlivé výsledky. Řadě problémů lze také předejít, pokud se již při plánování výzkumu zamyslíte například nad způsobem kódování proměnných. Víte ale, jak data správně připravit a jaké konkrétní kroky realizovat?

Příprava datové matice

Jednotlivé kroky přípravy se mohou lišit podle typu dat (výběrová data, záznamy z databáze, experimentální data apod.) i dalších specifik řešené úlohy. Zde se zaměříme na nejčastější okruhy problémů, které se v této souvislosti objevují. Konkrétní postup do určité míry závisí i na užívaném softwaru, níže budeme vycházet z programu IBM SPSS Statistics.

Prvním krokem je načtení dat do požadovaného formátu (SAV). Ačkoliv lze data pořizovat i přímo v IBM SPSS Statistics, není to běžné. Nejčastěji bývají uložena v Excelu, v textovém souboru či v nějaké databázi. Z těchto formátů je nutné data načíst a případně také spojit, pokud se nacházejí ve více souborech (tabulkách). Program IBM SPSS Statistics je v tomto směru velmi otevřený a umožňuje snadný import dat téměř z libovolného formátu.

Data musí mít vždy strukturu datové matice, tj. obdélníku, kde se v řádcích nacházejí případy a ve sloupcích proměnné. Případy mohou reprezentovat například respondenty, kteří se zúčastnili výzkumu, proměnné otázky v dotazníku. Někdy je nutné do datové matice vybrat pouze část případů (pokud se například analýza vztahuje jen k určitému období či regionu), data agregovat (jednotlivé případy potom zastupují určité skupiny případů z původního souboru, například kraje) či jiným způsobem změnit jejich strukturu.

Následně datový soubor vybavíme informacemi o proměnných (tzv. metadata). Definujeme typy a formáty proměnných, popisy proměnných, popisy hodnot, specifikujeme kódy, které vyjadřují vynechané hodnoty v datech a další. Výhodou tohoto postupu je, že informace zadáme pouze jednou a poté se již automaticky užívají ve všech tabulkách, grafech či jiných výstupech, které vytvoříme.

V rámci přípravy dat potřebujeme často také odvodit nové proměnné na základě existujících (například vypočítat různé indexy, poměrové proměnné apod.) nebo je jiným způsobem upravit pro analýzu. Patří sem například slučování kategorií (spojování podobných nebo málo zastoupených kategorií) či kategorizace číselných proměnných.

Čistění a ověřování kvality dat

Poté, co je připravena datová matice, provedeme kontrolu a čištění dat. Nejprve identifikujeme podezřelé, neobvyklé nebo chybné případy, proměnné a hodnoty v datech. Následně volíme nejvhodnější způsob, jak daný problém řešit.

Základem je obvykle analýza rozložení jednotlivých proměnných, jejímž cílem je odhalit problematické distribuce. Mezi takové patří například konstantní proměnné, kategorizované proměnné s málo zastoupenými kategoriemi nebo naopak takové, kde většina případů (obvykle více než 85%) patří do jedné kategorie. U číselných proměnných se zaměřujeme například na odlehlá a extrémní pozorování. Pokud v datech existuje jedna nebo více proměnných, které identifikují jednotlivé případy, kontrolujeme jejich kompletnost a zda se nevyskytují duplikátní identifikátory.

U jednotlivých proměnných rovněž ověříme, zda se data nacházejí v povoleném rozsahu. Například u kategorizované proměnné Vzdělání s kódy 1, 2, 3 a 4 by se neměly vyskytovat jakékoliv jiné kódy ani neceločíselné hodnoty. Jednou z možností, jak tento problém řešit, je zavedení tzv. pravidel. Pravidla se mohou vztahovat pouze k jedné proměnné, nebo propojovat více proměnných. Příkladem takové situace je vztah mezi věkem a starobním důchodem – osoba, která pobírá starobní důchod, by měla dosáhnout alespoň určitého minimálního věku. Pravidla nejprve definujeme a poté provedeme jejich kontrolu.

Pokročilé problémy

Kromě základní přípravy a čištění dat je často nutné řešit také náročnější otázky, například vynechané hodnoty nebo vážení. Ačkoliv se tyto situace v praxi vyskytují zcela běžně, jejich řešení obvykle není jednoduché a vyžaduje již značné zkušenosti s analýzou dat, někdy i pokročilé znalosti statistických metod. Přitom platí, že nevhodným postupem můžeme často napáchat více škody než užitku.

S vynechanými hodnotami se setkáváme ve výzkumných šetřeních, v plánovaných experimentech i při analýze dat z databází. Důvodem může být, že část respondentů zapomene či záměrně neodpoví na některé otázky v dotazníku, nepodaří se realizovat všechna měření v experimentu, některé údaje v databázi chybí apod. Prvním krokem řešení je obvykle zjištění závažnosti problému – kolika procent případů, proměnných a hodnot v datech se týká. Dále je nutné zaměřit se na strukturu vynechaných hodnot. Jestliže například zjistíme, že se vynechané hodnoty vyskytují pouze u několika málo případů nebo méně důležitých proměnných, můžeme uvažovat o jejich vyloučení. Pokud se ukáže, že hodnoty v datech chybí zcela náhodně, řešení je většinou poměrně jednoduché. Jestliže zjistíme vztah k některým proměnným v datech, je nutné užít pokročilejší metody a tyto proměnné zahrnout do modelu jako prediktory. Nejobtížnější je však situace, kdy vynechané hodnoty závisejí přímo na hodnotě, která měla být pozorována (například při zjišťování příjmů tuto informaci častěji odmítají sdělovat lidé s vyšším příjmem). Na základě zjištěných informací potom volíme nejvhodnější přístup, který může zahrnovat vyřazení případů nebo proměnných s vynechanými hodnotami, doplnění vynechaných hodnot pomocí vhodných statistických postupů a analýzu kompletních dat, nebo využití metod, které umožňují provést odhady na datech s vynechanými hodnotami (například věrohodnostní metody).

V řadě situací je třeba data vážit, aby měl soubor požadovanou strukturu. V datech z výběrových šetření je obvykle nutné zajistit reprezentativnost souboru pomocí designových a/nebo poststratifikačních vah. Jiným důvodem vážení může být nonresponse, kdy vahami zohledňujeme skutečnost, že se některé vybrané jednotky výzkumu neúčastnily vůbec (například z důvodu odmítnutí). O těchto případech většinou nemáme k dispozici žádnou informaci a jejich vynechání může způsobit vychýlení souboru. Zároveň se však jedná o nejvíce rozporuplný typ vah, který může při nevhodné aplikaci výsledky více poškodit než zlepšit. Pokud to lze, snažíme se tedy nonresponse především v maximální míře předcházet způsobem organizace výzkumu. Zavedení vah je někdy nutné také při analýze agregovaného souboru. Podobně jako při práci s vynechanými hodnotami, i pro konstrukci vah však platí, že vyžaduje zkušeného analytika a je nutná opatrnost. Špatné váhy mohou způsobit dokonce ještě větší zkreslení výsledků, než pokud bychom data nevážili vůbec.

Závěr

Příprava dat je časově náročnou záležitostí. Zahrnuje základní přípravu datové matice, čištění a ověřování kvality dat i další kroky vycházející z konkrétní situace a řešené úlohy. Věnovat jí čas se však rozhodně vyplatí, protože nejen usnadní následnou analýzu, ale především zásadním způsobem ovlivňuje kvalitu získaných závěrů. Tyto činnosti mohou také usnadnit specializované moduly programu IBM SPSS Statistics, například IBM SPSS Data Preparation určený pro přípravu a čištění dat nebo IBM SPSS Missing Values zaměřený na práci s vynechanými hodnotami.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

společnost ACREA
ACREA CR je českou analytickou společností s tradicí od roku 1998. Poskytuje analytické, statistické a dataminingové služby, školení a software z řady IBM SPSS a Predictive Solutions. Název firmy je zkratkou pro Analytical CREAtivity, která vyjadřuje, že každý analytický projekt je pro nás unikátní a ke každému přistupujeme individuálně.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů