Analýza sociální sítě aktérů korupčního skandálu ve fotbale

Nejsledovanějším sportem v Česku je nepochybně fotbal. Točí se tu velké peníze, a proto se s fotbalem pojí nejedna aféra. V aférách bývá zapleteno mnoho lidí a organizací a udělat si obrázek o tom, kdo s kým spolupracoval, nebývá snadné.

Podívejme se na vztahy aktérů jedné z posledních afér, kdy se manipulovalo s výsledky zápasů v druhé a třetí lize. Korupční skandál byl odhalen na podzim 2020 a hlavní postavou aféry je již bývalý místopředseda Fotbalové asociace České republiky Roman Berbr. Při policejní razii bylo zadrženo 20 osob a média se naplnila články, kde se objevila ještě další jména. Téma je živé ještě dnes. Ačkoli zveřejněné články často podrobně mapují spolupráci aktérů, udělat si přehled ve vztazích mezi množstvím zúčastněných lidí není snadné. K zorientování nám pomohou vybrané textminingové procedury a postupy používané při analýze sociálních sítí.

Hotovou datovou matici s údaji o korupční aféře nikdo nenabízí, vyjdeme proto z novinových článků. Pro jednoduchou analýzu jsem si stáhl třicet článků o tomto skandálu ze serveru Deník.cz. Z HTML souborů jsem extrahoval prostý text, text jsem rozdělil na odstavce a v textech hledal pojmenované entity. Z pojmenovaných entit jsem si vybral pouze osoby. Pokud se nějaká dvojice osob vyskytla ve stejném odstavci, považoval jsem osoby za propojené.

Popsaný postup přípravy dat by si zasloužil popsat mnohé detaily a jistě se dá navrhnout celá řada alternativních způsobů hledání vazeb. Jak jsem vybíral články? Jak konkrétně byly extrahovány pojmenované entity? Proč zrovna výskyt v odstavci generuje vazby? Pokud byste měli podobné dotazy, rád si o tom popovídám v diskusi pod příspěvkem.

V článcích jsem identifikoval přes 200 pojmenovaných entit, více než v polovině se jednalo o osoby. Kromě osob se mezi entitami objevily mimo jiné fotbalové kluby, například často citovaný Slavoj Vyšehrad. Před extrakcí vazeb jsem se omezil pouze na osoby, jež se vyskytly nejméně ve třech odstavcích. Mezi zbylými 24 osobami jsem identifikoval 51 unikátních vazeb. To jsou vhodné počty na to, aby se dala získaná sociální síť nakreslit pomocí následujícího sociogramu s hustotou 0,185. Síla spojnic je úměrná počtu vazeb nalezených v textech.

V sociogramu nejsou patrné žádné skupiny. Vše se točí okolo hlavního aktéra Romana Berbra. Nejsilněji byl propojen s Dagmar Damkovou. Ta také zastávala vysoké pozice ve Fotbalové asociaci České republiky, a především je partnerkou Romana Berbra. Třetí nejsilněji propojenou postavou se jeví Roman Rogoz. Ten dělal managera ve Slavoji Vyšehrad. Ostatní aktéři nejsou již propojeni zdaleka tak silně. Jedná se třeba o konkrétní podplácené rozhodčí vykreslené zeleně nebo další modré funkcionáře.

Uvedená pozorování můžeme i kvantifikovat. Například vážený součet spojnic vedoucích k Romanu Berbrovi je 114, ostatní postavy nemají tuto míru ani poloviční. Roman Berbr má také nejvyšší míru centrality založenou na vlastních číslech matice hran. To jasně ukazuje na jeho vůdčí pozici v celé síti. Roman Berbr též výrazně převyšuje ostatní ve statistice betweenness, která udává počet nebo podíl všech cest mezi dvojicemi osob v sociogramu procházejících skrze vrchol Romana Berbra. Průměrná délka cesty mezi dvojicemi osob v sociogramu činí 2,007, což v kombinaci se zmíněnou betweenness podtrhuje velmi silnou Berbrovu centrální pozici. Kdybychom odebrali Romana Berbra ze sítě, síť by se rozpadla. V sociogramu budeme těžko hledat klastry osob, protože celková modularita sítě je pouze 0,154 při pokusu o rozdělení na dvě skupiny.

Na základě analýzy sociální sítě osob zapletených do korupčního skandálu můžeme konstatovat, že se jedná o aféru jednoho silného hráče obklopeného velkým množstvím malých vzájemně nepropojených hráčů. Pokud byste se chtěli dozvědět více o tom, jak se sociální sítě konstruují, jak se počítají jejich statistiky a jak se to využívá v jiných úlohách, zvu vás na náš kurz analýzy sociálních sítí. Mimo jiné si tam procvičíte práci s daleko většími sítěmi, naučíte se hledat silně propojené skupiny a jejich vůdčí osobnosti a simulovat šíření informace v síti.

Mgr. Ondřej Háva, Ph.D.
Senior analytik a lektor data miningu v ACREA CR. Ve své profesní kariéře se specializuje na dataminingové projekty, a to především v oblasti řízení rizik a detekce podvodů. Má zkušenost s vedením desítek rozsáhlých dataminingových projektů a softwarových řešení pro velké společnosti. Zaměřuje se na problematiku text miningu a sociálních sítí, je autorem a spoluautorem řady odborných článků a publikací. V současné době se věnuje vývoji textminingového modulu ACREA TEXT MINING.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů