Datový audit

Data ukrývají informaci, kterou se statistická analýza snaží najít a převést do srozumitelné a uchopitelné podoby. Data bohužel často obsahují i jevy, které informaci zkreslují nebo zastiňují a znemožňují ji z dat získat. Navíc použití každé statistické metody předpokládá určité vlastnosti dat, a pokud ty nejsou splněny, poskytuje metoda špatné výsledky.

Nezbytnou součástí statistické analýzy je proto datový audit, důkladný průzkum datového souboru. V jeho rámci se vytvoří komplexní tabulkový a grafický přehled datového souboru, ten je vhodnou pomůckou i při interpretaci výsledků analýzy, ale hlavně slouží k ověření použitelnosti zvolených statistických metod. Audit bude obsahovat základní informace o proměnných, jejich popisné statistiky, grafy rozložení, ale také informace o chybějících hodnotách, duplikátních případech a případech s odlišným chováním od ostatních tzv. odlehlých nebo extrémních případech. Celkově bude ověřena použitelnost plánovaných statistických metod. Audit navrhne způsoby opravy datového souboru.

Na vytvoření datového auditu může navazovat odstranění chyb identifikovaných v datech. Výsledkem činnosti pak bude matice, která se bude dále zpracovávat pomocí zvolené statistické metody. Čištění dat je časově poměrně náročná činnost a je třeba s ní už od začátku projektu počítat.

POSKYTOVANÉ SLUŽBY

Zpráva o datovém zdroji
 • popis typu a významu proměnných a jejich dostupnosti,
 • popisné statistiky proměnných, grafický záznam hodnot,
 • chybějící hodnoty,
 • duplikátní případy,
 • odlehlé a extrémní případy,
 • použitelnost dat pro plánované statistické metody.
Návrhy a oprava datového zdroje
 • vynechání nevhodných proměnných,
 • odstranění odlehlých a extrémních pozorování,
 • případné doplnění chybějících hodnot,
 • transformace proměnných.

CO POTŘEBUJEME VĚDĚT

 • velikost datového souboru,
  • počet proměnných v datovém souboru,
  • počet případů,
 • dostupné informace o datech (popis proměnných, způsob vzniku dat, známé problémy s daty),
 • účel a specifikace úlohy,
 • formát výstupní zprávy (např. .docx,  .pptx, nebo .xlxs),
  • formát výstupového souboru,
  • seznam uvažovaných statistických metod.

Nemáte dostatek času věnovat se přípravě dat a chcete se co nejrychleji soustředit na samotnou analýzu? Kontaktujte nás.