Hledání skupin osob a organizací v novinových článcích o koronaviru

Informace se na nás valí ze všech stran. Jsme přímo nuceni je filtrovat a sumarizovat. V současnosti jsme zahrnuti informacemi o koronaviru. Rád bych vám v tomto článku ukázal, jak se dají vznikající tiskové zprávy, jejichž přečtení není v našich silách, využít k extrakci vazeb mezi osobami a organizacemi.

Hledáním vztahů mezi organizacemi a osobami se proslavil v minulém století americký malíř, spisovatel a kurátor Mark Lombardi. Jeho kresby sociálních diagramů se stále vystavují. Během své kariéry se z něj stal spíše investigativní novinář, neboť informace ze sdělovacích prostředků zakresloval do svých umělecky dobře vyvedených diagramů, a tím odkryl neznámé zprostředkované vazby mezi vlivnými osobnostmi Spojených států. Za zmínku stojí minimálně aféra Watergate okolo prezidenta Nixona, na jejíž analýze debutoval.

Dnes není potřeba být zručným malířem a ani detailně pročítat denní tisk. Přečtení stovek článků za mě vyřešil textminingový software a diagramy nakreslil software pro analýzu sociálních sítí. Co bylo k dispozici a jaké vztahy jsem našel?

Z webu České tiskové kanceláře České noviny.cz jsem si stáhl aktuální zprávy. Vzal jsem si jen ty, které se týkaly koronaviru, konkrétně musely obsahovat slovo koronavirus nebo COVID. Z článků, jež dnes vydává ČTK, se o koronaviru hovoří v 50 %. Zajímalo mě, o čem se v nich píše, jaké osobnosti a organizace se v nich vyskytují a jaké jsou mezi nimi vazby. A protože média dnes zřejmě sledujeme více než jindy, můžeme zjištěné závěry lépe verifikovat.

Kontextové vztahy klíčových slov

V prvním kroku jsem si z článků strojově extrahoval klíčová slova. Tento krok předchází všem běžným textminingovým analýzám. Kromě klíčových slov jsem extrahoval i pojmenované entity. Mezi pojmenované entity se řadí osoby a organizace, mezi nimiž jsem se rozhodl hledat spojitosti.

Klíčových slov je vždy k dispozici velmi mnoho, a proto jsem z nich vybral jen několik set těch nejčetnějších. V textech jsem nehledal latentní témata, ale pracoval jsem přímo s klíčovými slovy a entitami. Pro analýzu vazeb není tolik podstatné, jaká klíčová slova a entity extrahujeme, ale to jak často se vyskytují společně a v jakém vztahu. Na základě toho můžeme, podobně jako to dělal Mark Lombardi, nakreslit sociogram a hledat v něm skupiny spjatých osob a organizací. Správně se tomu říká analýza sociálních sítí a datové podklady pro tuto analýzu jsem získal z nestrukturovaných textů pomocí prostředků pro počítačové zpracování přirozených jazyků.

Nejprve jsem zkusil zobrazit, v jakém kontextu se vyskytují klíčová slova. Klíčová slova tvoří podstatná jména a slovní spojení s podstatnými jmény. Díky bohatému tvarosloví českého jazyka je třeba klíčová slova uvést do základního tvaru, tzv. lemmatu. Pokud se dvě klíčová slova vyskytovala ve stejném dokumentu, vytvořila se mezi nimi vazba. Síla vazby je úměrná společné četnosti klíčových slov v dokumentu a počtu dokumentů, kde se obě klíčová slova vyskytují. Vazby mezi nejčastějšími klíčovými slovy znázorňuje následující graf.

Velikost uzlů v grafu je úměrná četnosti a umístění klíčových slov v dokumentech. Síla vazeb je znázorněna tloušťkou spojnic mezi uzly. V grafu jsou uzly uspořádány tak, aby ty se silnou vazbou byly u sebe. Utvoří se tak skupiny silně propojených uzlů. Nalezené skupiny jsou pro názornost obarveny.

Pokud se na graf zadíváte pozorně, uvidíte, že uprostřed jsou termíny úzce spjaté s koronavirem. Respirátor je blízko roušky a ta se zobrazuje poblíž Číny. Přes karanténu, epidemii a opatření dojdeme až k pandemii. Půjdeme-li po okraji kruhu s vepsanými klíčovými slovy od shora ve směru hodinových ručiček, sledujeme další skupiny termínů, které sice s koronavirem souvisí, ale ne již tak úzce. Nahoře se umístila slova spojená s rušením akcí, dále následují finanční pojmy. Ty pak přechází ke zboží a následuje doprava. Doprava graduje kamiony a kolonami na hraničních přechodech. S uzavíráním hranic přišlo rušení a přesouvání hromadných akcí. Tím jsme se dostali po obvodu kruhu zase zpět nahoru. A jistě byste sami našli další přechody a souvislosti někde na mezikruží nebo naopak na radiálách našeho grafu.

Kontextové vztahy mezi pojmenovanými entitami

Mým hlavním cílem bylo seskupit osoby a organizace. Ty v prvním grafu v zájmu přehlednosti nejsou. Na něm jsem chtěl otestovat, jak zvolený postup bude znázorňovat víceméně známé vztahy. Osoby a organizace vidíme v druhém sociogramu, tentokrát jsem v něm schoval klíčová slova.

Vrcholy jsou opět uspořádány tak, že osoby a organizace, které se citují v textu často společně, leží blízko sebe. Velikost uzlů znázorňuje množství citací a tloušťky spojnic četnosti společného výskytu. Detekované klastry organizací a osob jsou obarveny.

V sociogramu si nelze nevšimnout největší skupiny vzniklé z osob a organizací citovaných společně s koronavirem. Nejčastěji se cituje politické hnutí ANO spolu s Andrejem Babišem a ministerstvem zahraničí. Ve stejném klastru najdeme i další politiky, kteří dnes v souvislosti s koronavirem vystupují v médiích. Z organizací se blízko ministerstva zahraničí umístila Policie ČR a možná pro někoho překvapivě i Twitter, ale dnes je již běžné, že politici a organizace vyjadřují na Twitteru své názory.

Od Twitteru se snadno přesuneme k dalším světovým organizacím, které však utvořily samostatnou skupinu. Centrální pozici v tomto klastru zaujímá EU a agentura Reuters, odkud ČTK často čerpá. Klastr světových organizací a osobností je dosti rozsáhlý od světových bank v horní části až po automobilky dole.

Zbylé klastry u pravého okraje kruhového grafu sdružují sportovní organizace. V dolním klastru najdeme Čechy nejčastěji diskutovaný sport, fotbal. Druhý sportovní klastr umístěný vpravo nahoře můžeme dále snadno rozdělit na Olympijské hry a tenis. Ostatní sporty jsou (nejen) v souvislosti s koronavirem upozaděny.

Závěrem

Možná si teď říkáte, že je to sice zajímavé, ale očekávané. Žádný úchvatný závěr, jako například odhalení mezinárodní skupiny organizovaného zločinu, zjištěn nebyl. Analýze dat se věnuji řadu let a již několikrát jsem si ověřil, že nečekané výsledky jsou téměř vždy způsobeny chybnými daty a nekorektními analytickými postupy.

Prezentovaný sociogram ale ukazuje, jak lze kombinovat text mining a analýzu sociálních sítí k přehledné sumarizaci složitých vztahů. Na místo pročítání stovek článků si stačí pozorně prohlédnout jeden obrázek. Podobnou analýzou lze například urychlit čtení dlouhého románu, studium soudních spisů či procházení záznamů o pojistných událostech při detekci organizovaných pojistných podvodů. Podobné grafy vztahů nám umožní orientovat se v mnoha aférách, jak už dobře rozpoznal Mark Lombardi. Já jsem si například kreslil podobné obrázky, abych se lépe vyznal v naší metanolové aféře. A protože aféry byly, jsou a budou a jistě se o nich ještě mnohé napíše, věřím, že tento analytický postup v dnešní době plné informací neztrácí svůj půvab.

Mgr. Ondřej Háva, Ph.D.
Senior analytik a lektor data miningu v ACREA CR. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení rizik a detekce podvodů. Má zkušenost s vedením desítek rozsáhlých dataminingových projektů a softwarových řešení pro velké společnosti. Zaměřuje se na problematiku text miningu a sociálních sítí, je autorem a spoluautorem řady odborných článků a publikací. V současné době se věnuje vývoji textminingového modulu ACREA TEXT MINING.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů