Extrakcia pomenovaných entít v IBM SPSS Statistics

Softvér IBM SPSS Statistics priamo neponúka možnosť extrahovať pomenované entity ako je napríklad miesto, organizácia alebo osoba z textového dokumentu. Preto sme pre svojich používateľov pripravili vlastnú procedúru určenú práve na extrakciu entít s názvom ACREA TA Entities, ktorá tak rozširuje existujúci modul ACREA Text Analytics s už dostupnými procedúrami ACREA TA SentimentACREA TA Labels. Aj v súvislosti s novou procedúrou a stratou opodstatnenia bola z procedúry ACREA TA Labels zrušená voľba domény dokumentov a typu hesla.

Na dátovom súbore obsahujúcom tenisové články uverejnené na portáli sportky.sk v období od 18.3.2024 do 17.4.2024 si ukážeme aké výstupy procedúra ponúka. Pozrieme sa na najčastejšie sa vyskytujúce entity v tenisových článkoch, mená osôb podľa sentimentu, s akým sa o nich v článkoch hovorí a grafické znázornenie entít podľa ich typu spolu s doplňujúcimi informáciami ako je početnosť prípadne celkový sentiment v článkoch.

Extrahované entity

Najpočetnejšie pomenované entity sme zobrazili pomocou stĺpcového grafu a podfarbili typom entity. Z typu entity miesto (location) je najpočetnejšie Miami a Monte Carlo. V obidvoch mestách sa konali tenisové turnaje. V Miami hlavný mužský tenisový turnaj od 20.-31.3.2024 aj ženský tenisový turnaj od 19.-31.3.2024. Hlavný turnaj v Monte Carle bol iba mužský od 7.-14.4.2024. Aj preto sa o turnaji v Miami písalo viac.

Z typu entity organizácia (organization) je najpočetnejšie WTA a ATP. WTA (Women’s Tennis Association, Tenisová asociácia žien) je hlavný organizačný orgán ženského profesionálneho tenisu. ATP (Association of Tennis Professionals, Asociácia tenisových profesionálov) je zas riadiaci orgán mužských profesionálnych tenisových okruhov.

Pre typ entity osoba (person) je najpočetnejší Novak Djokovič. V uvedenom období sa o ňom písalo v súvislosti s ukončením spolupráce s chorvátskym trénerom Goranom Ivaniševičom, najstaršej svetovej tenisovej jednotke a antukovým turnajom v Monte Carle, kde štartoval a dostal sa až do semifinále.

Sentiment osôb

Pre grafické zobrazenie priemerného celkového sentimentu osôb pomocou stĺpcového grafu sme vybrali osoby s početnosťou aspoň 5. Všetky uvedené osoby sú aktívni tenisti alebo tenistky a Matej Lipták je kapitán slovenského tímu v Pohári Billie-Jean Kingovej. Matej Lipták má pozitívny priemerný sentiment, pretože ako kapitánovi sa mu podarilo so slovenskými tenistkami postúpiť na novembrový finálový turnaj Pohára Billie-Jean Kingovej v Seville. Na druhú stranu Medvedev má negatívny priemerný sentiment. V treťom kole na turnaji v Monte Carle, po prehratom prvom sete s Karenom Chačanovom, sa v druhom sete za stavu 5:5 pohádal s rozhodcom pre tesnú loptičku súpera, ktorá bola označená ako dobrá. Nakoniec druhý set prehral a z turnaja tak vypadol.

Ak by sme sa pozreli na osobu s najviac negatívnym sentimentom v článku, tak by to bol prezident Českého tenisového zväzu (ČTS) Ivo Kaderka, ktorý je spájaný s miliónovými dotačnými podvodmi so štátnymi športovými dotáciami.

Entity podľa typu

Najviac početné entity si môžeme graficky znázorniť samostatne podľa jednotlivých typov napríklad pomocou bublinového grafu spolu s informáciou o početnosti entity alebo aj jej celkového sentimentu. Čím väčšia bublina, tým väčšie zastúpenie entity. Entita ako aj jej početnosť je zobrazená v bubline a celkový sentiment je zvýraznený farbou bubliny podľa legendy. Postupne sú znázornené bublinové grafy pre typ entity miesto (location), organizácia (organization) a osoba (person).

Extrakcia pomenovaných entít v IBM SPSS Statistics

Aby ste však mohli realizovať extrakciu pomenovaných entít, potrebujete si zakúpiť samostatný modul Acrea Text Analytics s procedúrou Entities. Tá sa jednoducho nainštaluje do softvéru IBM SPSS Statistics a pod menu Custom pribudne nová procedúra ACREA TA Entities.

Výstupom procedúry je nová dátová matica s dlhým formátom, kde riadky reprezentujú nájdené pomenované entity v jednotlivých dokumentoch. Jeden dokument tak môže byť reprezentovaný viacerými riadkami. V stĺpcoch novej dátovej matice je potom minimálne identifikátor dokumentu, extrahovaná entita, typ entity (location, organization alebo person) a prípadne na vyžiadanie aj kategória sentimentu entity (very negativenegativeneutralpositivevery positiveambivalent) a skóre sentimentu entity (celkové, pozitívne a negatívne skóre sentimentu entity). Pred samotnou extrakciou entít ide na vyžiadanie realizovať automatické rozpoznanie jazyka a aj nahradenie diakritiky pokiaľ chýba. Procedúra má tiež vlastnú dokumentáciu pod tlačidlom Help a aj svoju vlastnú syntax ACREA TA ENTITIES a je ju tak možné využiť pri automatizácii procesov na pravidelnej báze.

Rádi byste se o statistice a analýze dat dozvěděli více? Chcete se stát mistrem ve svém oboru nebo si jen potřebujete doplnit znalosti? V ACREA nabízíme širokou nabídku kurzů pro váš profesní růst. Máte-li jiný dotaz. Nebojte se využít naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Ing. Mgr. Milan Machalec
lektor, analytik a odborný konzultant ve společnosti ACREA. Ve své profesní kariéře se zaměřuje na analytickou činnost nejen v oblasti statistiky, ale také data miningu a své odborné zkušenosti využívá v lektorské činnosti. V nemalé míře se podílí na odborné konzultantské činnosti pro oblast aplikace a využití softwarových řešení v různých podnicích.
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů