Off-line sběr dat aneb papír do koše nepatří

Zdálo by se, že v době mobilů a tabletů už nebude o papírový sběr dat zájem. Zdánlivá jednoduchost a dostupnost online výzkumů však nemusí být vždy výhoda. Pořád existují situace, kdy procesně dražší papírová forma sběru dat je vhodnější a dostupnější. Jedná se hlavně o dlouhodobé spokojenostní výzkumy mezi různorodým spektrem respondentů. S papírovými dotazníky se budeme i nadále setkávat v nemocnicích a na úřadech a všude tam, kde je možno dotazníky zanechat k dispozici potenciálním respondentům. Papírový sběr dat je však náročný na administrativu a lidské síly. Dotazník musí někdo vytisknout, rozdistribuovat, sebrat ze všech různých míst a naskenovat. A nemáte-li k dispozici nástroj na automatický převod odpovědí do elektronické podoby, pak je nutné i ručně přepsat jejich obsah.

Některé činnosti zjednodušit či automatizovat nelze, a tak vždy bude třeba nějaké lidské práce. Co však automatizovat lze, je převod naskenovaného dotazníku do strukturované elektronické formy. Cílem podobných projektů není samotný sběr, ale analýza sebraných odpovědí. Aby bylo co analyzovat, je zapotřebí mít data v požadované formě. A abychom data do dané formy dostali, potřebujeme nástroj, který ví, co a kde na naskenované stránce hledat a jak to do elektronické verze zaznamenat.

Pro tyto účely je ideální nástroj Remark Office OMR, který se historicky zaměřoval na vyhledání optických značek (OMR) v naskenovaném dokumentu a jejich převod do datového souboru. Optické značky jsou vhodné pro klasické jednoduché i vícečetné kategorizované odpovědi (ano/ne, výběr z kategorií A/B/C/D … apod.). 30 let vývoje tohoto softwaru dovedlo rozpoznávání optických značek pomocí technologie OMR téměř k dokonalosti, ale i tak narážel program na své limity. Pro ostatní typy odpovědí není OMR úplně vhodný, například pro převod čísla z textu nebo rukou psané poznámky. Převod čísel se za cenu zabrání většího prostoru v tištěné předloze vyřešit dá. Navíc možnost rozpoznání čárových kódů výrazně usnadňuje identifikaci výzkumu či respondenta. Nicméně volný text, případně strojový text z předlohy, se ve starších verzích musely přepisovat ručně. Což se uživatelům samozřejmě nelíbilo.

Proto byla postupně do softwaru přidána funkcionalita OCR a ICR. OCR znamená optické rozpoznávání znaků, tedy rozpoznání tištěného textu, který může identifikovat např. organizační jednotku, verzi testu nebo obsahovat další doplňující informace o sběru nebo respondentovi. ICR představuje rozpoznání znaků z obrázku a také z ručně psaného textu. Technologie ICR je pořád ještě relativně nová, nemusí podporovat všechny jazyky, je výkonnostně a časově náročná, a hlavně vyžaduje softwarově sofistikovanější přístup. ICR je v programu Remark zajištěno předáním naskenovaného textu ke zpracování do cloudového řešení Microsoft Azure Computer Vision.

Software Remark Office OMR tak nabízí jednoduchý a kompaktní nástroj pro digitalizaci a obsahovou extrakci odpovědí respondentů z papírových formulářů. Výsledný datový soubor je plně vybaven metadaty (popisy proměnných i hodnot) a je vhodný pro další statistické analýzy, buď přímo v programu Remark nebo v jiných statistických nástrojích, jakým je například IBM SPSS Statistics.

Ing. Libor Šlik
Hlavní náplní jeho práce je správa a implementace velkých softwarových řešení založených na produktech IBM SPSS. V ACREA CR působí jako IT ředitel. Zaměřuje se na řešení projektů z oblasti data miningu, sběru dat a automatizace datových procesů. V roce 2002 vystudoval Provozně ekonomickou fakultu České zemědělské univerzity v Praze, obor Informatika se zaměřením na statistiku a informační systémy.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů