Textová analýza názorů české veřejnosti na koronavirus

Výzkumná agentura SC&C uskutečnila průzkum mezi českou populací na téma koronavirus. Zjišťovala, jak se lidé nemoci bojí, jak předchází nakažení a jak vnímají preventivní opatření vlády ČR. Vybrané výsledky si můžete prohlédnout tady. My se podíváme, jak respondenti odpovídali na otevřené otázky, kde mohli své názory vyjádřit volným textem.

Na pomoc si vezmeme textminingový analytický software ATM, abychom byli schopni z odpovědí extrahovat klíčové termíny. Můžeme i zkusit některé odpovědi kvantifikovat podle sentimentu a zjistit, jaká nálada mezi obyvateli panuje. Aby naše zkoumání bylo poučnější, vybral jsem pro tento příspěvek i porovnání podle dosaženého vzdělání.

Riziko nákazy

Nejprve se podíváme na texty, kde se mohli respondenti vyjádřit o čemkoli, co se týká rizika nákazy koronavirem. Tuto možnost využilo pouhých 24 % dotazovaných. O čem nejčastěji píší je patrné z následujícího grafu četností nejčastějších termínů. Jednoslovné i víceslovné extrahované termíny jsou v základním tvaru, graf se omezuje na termíny detekované alespoň u pěti respondentů.

Z grafu je zřejmé, že respondenti nejvíce komentují opatření vlády ČR zamezující šíření epidemie a pak se teprve zabývají vlastními riziky šíření koronaviru. Pokud roztřídíme respondenty podle vzdělání, zjistíme, že opatření vlády se diskutují napříč skupinami. Skupiny s nižším vzdělám však diskutují i o možné panice a strachu z epidemie. Naopak u vyššího vzdělání se navíc diskutuje i věk, což zřejmě souvisí s nerovnoměrným rozdělením smrtnosti pro různě staré pacienty.

nejvyšší dosažené vzdělání nejčetnější termíny
základní, vyučen, středoškolské bez maturity karanténa, panika, vláda, opatření, strach, nařízení
středoškolské s maturitou vláda, věk, karanténa, koronavirus, opatření, riziko
vysokoškolské včetně VOŠ riziko, opatření, věk, vláda

Opatření proti šíření

Na názory na vládní opatření se můžeme podívat podrobněji, neboť máme k dispozici druhou otevřenou otázku, kde respondenti po kvantifikaci své důvěry ve vládu mohli napsat své názory na toto téma. Možnost volného vyjádření využilo pouze 21 % dotázaných. Opět máme k dispozici graf četností termínů v základním tvaru vyskytujících se alespoň v pěti názorech.

Respondenti ve svých volných postojích k vládním opatřením nejčastěji opakují to, co vídáme v médiích. Na obrazovkách v posledních dnech vystupuje nejčastěji pan premiér a komentuje situaci s rouškami a respirátory, případně vysvětluje, jak se máme chovat při karanténě. Opět si všimněme, jak se témata liší mezi vzdělanostními skupinami.

nejvyšší dosažené vzdělání nejčetnější termíny
základní, vyučen, středoškolské bez maturity Čína, respirátor, nezodpovědný člověk, koronavirus, chyba, vir
středoškolské s maturitou Babiš, pomůcky, epidemie, ochranná pomůcka, respirátor, premiér
vysokoškolské včetně VOŠ rouška, karanténa, Babiš, respirátor, premiér, nákaza, zásobování

Kritika nebo diskuse?

Občané s nižším vzděláním spíše kritizují, se středním vzděláním opakují témata probíraná v médiích a vysokoškoláci se zabývají i složitějšími problémy, jako jsou šíření nákazy a zajištění zásobování. Tomuto zjištění by mohl odpovídat i sentiment výpovědí. Z výčtu slov bych očekával nejvíce negativní sentiment u respondentů s nižším vzděláním.

Moje hypotéza se však nepotvrdila. Celkový sentiment výpovědi kvantifikujeme na škále od mínus jedné do jedné. Záporné hodnoty ukazují na negativní sentiment, hodnoty okolo nuly na neutrální a kladné hodnoty jsou vyhrazeny pro sentiment pozitivní. Průměrné skóre celkového sentimentu všech respondentů je -0,13. Mezi těmi, co se vyjadřují, tedy převládá negativní nálada. Průměrné skóre vysokoškoláků a středoškoláků je téměř stejné a v obou případech mírně nižší než u nejnižšího vzdělání.

Rozuzlení zápletky jsem našel v ambivalenci postojů. Ambivalentní jsou ty výpovědi, kde se vyskytuje jak záporný, tak kladný sentiment. Respondent zároveň chválí a zároveň si stěžuje. Ambivalenci můžeme odhalit tak, že jedním číslem kvantifikujeme pozitivní sentiment a jiným číslem sentiment negativní.

Z grafu, kde pro každou vzdělanostní skupinu jsou vyneseny průměry pozitivního i negativní skóre, vidíme, že ačkoli se nejedná o markantní rozdíly, ambivalence roste se vzděláním. Lidé s vyšším vzděláním více chválí, ale zároveň si i více stěžují. A protože negativní postoje v tomto výzkumu převažují nad pozitivními, u respondentů s nižším vzděláním se do užšího výběru dostaly především termíny jako „nezodpovědnost“ či „chyba“. Naopak vysokoškoláci hovoří o celé řadě různých témat a i jejich škála sentimentu je širší.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Mgr. Ondřej Háva, Ph.D.
Senior analytik a lektor data miningu v ACREA CR. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení rizik a detekce podvodů. Má zkušenost s vedením desítek rozsáhlých dataminingových projektů a softwarových řešení pro velké společnosti. Zaměřuje se na problematiku text miningu a sociálních sítí, je autorem a spoluautorem řady odborných článků a publikací. V současné době se věnuje vývoji textminingového modulu ACREA TEXT MINING.
Komentáře
  1. Děkuji napsal:

    Díky, důležité. Hezká analýza. Dobře, že jste se do toho pustili. Oceňuji !
    Hynek Jeřábek

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů