Čím se Češi baví během karantény?

Společnost SC&C uskutečnila již třetí vlnu výzkumu mezi českou populací, aby zjistila, jaké zaujímáme postoje k současné koronavirové situaci. Mimo jiné se respondentů zeptali, co je nejvíce v poslední době pobavilo nebo rozesmálo. Otázka byla otevřená a nepovinná, respondenti odpovídali volným textem.

Hned na začátku analýzy mě překvapilo vysoké procento vyplnění. Zatímco ostatní otevřené otázky mívají vyplněnost 15 až 20 %, k pobavení se vyjádřilo 70 % respondentů. Podívejme se tedy, čemu se český národ směje.

Už při pohledu na nejčetnější termíny vyskytující se v odpovědích je zřejmé, že máme rádi vtipy. Vtipy reagujeme na současnou situaci a vtipy vzájemně sdílíme po internetu a sociálních sítích. Častou formou našich vtipů jsou videa.

Tento zřejmý závěr jsem si potvrdil i pomocí analýzy sociálních sítí. Mezi termíny extrahovanými z volných textů jsem hledal kontextové souvislosti. Termíny, které se vyskytují v odpovědích dohromady, spolu souvisí. Mapu souvislostí si můžeme nakreslit do grafu, kde termíny tvoří vrcholy a spojnice ukazují na četnosti jejich společného výskytu v odpovědích.

V grafu jsem pak hledal klastry. Do klastru by se měly uzavřít vrcholy, které jsou mezi sebou silně propojené. Celý graf by byl díky bohaté slovní zásobě českého jazyka příliš rozsáhlý a málo informativní. Omezil jsem se proto pouze na termíny, jež se vyskytly alespoň ve třech odpovědích. Zbylo mi jich 422. Tento počet termínů už se sice zobrazit dá, ale stále je v grafu poměrně mnoho informace. V tomto grafu jsem se snažil detekovat klastry. Asi nebude překvapením, že jsem tam našel jeden velký a spoustu nezajímavých menších. A ten velký se týká vtipů.

Následující obrázek ukazuje jen nejdůležitější uzly z celého grafu, tj. ty nejvíce propojené s ostatními. Barva uzlů označuje příslušnost ke klastru. Většina termínů prezentovaných v obrázku se umístila do klastru vtipů, centrální úlohu v klastru sehrává přímo termín vtip.

Extrahované termíny se dají rozdělit na klíčová slova a pojmenované entity. Většina termínů v grafu se řadí mezi klíčová slova, ale můžeme zde nají i několik pojmenovaných entit: Andrej Babiš, Facebook, Internet. Pojmenované entity zahrnují konkrétní osoby, instituce, místa apod. Podíváme-li se, jaké pojmenované entity se vyskytují v odpovědích respondentů, můžeme si odpovědět na otázku, jaké postavy se nejvíce vyskytují ve vtipech spojených s koronavirem. Na následujícím obrázku si můžete prohlédnou celou síť bez klíčových slov, zbydou v ní jen pojmenované entity. Velikost písma u entit je úměrná četnosti výskytu v odpovědích.

Nejvíce citované entity jsme již zmínili: Andrej Babiš, Internet a Facebook. Z tohoto podrobnějšího obrázku si můžeme dále všimnout, že přímo v souvislosti s vtipy lidé též citují například Švejka, Evu Holubovou nebo Chucka Norrise. Většina známých osobností však vytvořila samostatný klastr zobrazený zelenými vrcholy. Je tedy vidět, že i politici dokáží národ pobavit a nemusí to nutně být ve vtipech, které mezi námi kolují.

P.S. Víte jaký je rozdíl mezi koronavirem a Spartou?

Mgr. Ondřej Háva, Ph.D.
Senior analytik a lektor data miningu v ACREA CR. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení rizik a detekce podvodů. Má zkušenost s vedením desítek rozsáhlých dataminingových projektů a softwarových řešení pro velké společnosti. Zaměřuje se na problematiku text miningu a sociálních sítí, je autorem a spoluautorem řady odborných článků a publikací. V současné době se věnuje vývoji textminingového modulu ACREA TEXT MINING.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů