ACREA TEXT ANALYTICS

- modul IBM SPSS Statistics pro analýzu textu 

Díky modulu ACREA Text Analytics můžete analyzovat sentiment dokumentu či extrahovat klíčová slova přímo ve statistickém softwaru IBM SPSS Statistics. Modul je tvořen souborem procedur umožňujících transformovat nestrukturovaná textová data z dokumentů psaných v přirozeném jazyce do strukturované (tabulkové) podoby vhodné pro další strojové zpracování. 

Přehráním videa souhlasíte se zásadami ochrany osobních údajů YouTube.

Zjistit vícePovolit video

Analýza sentimentu

Modul podporuje strojovou, jazykově závislou extrakci atributů ze všech významných světových jazyků a i z českých a slovenských textů a klasifikaci dokumentů podle jejich sentimentu. Určení sentimentu textového dokumentu je jednou z klasifikačních úloh, kdy dokumenty rozřazujeme do kategorií pozitivního a negativního sentimentu. 

Číselné skóre úměrné pozitivnímu či negativnímu vyznění dokumentu umožní dokumenty řadit a soustředit se pouze na ty nejvíce emotivní.

Kromě celkového skóre jsou k dispozici i samostatná skóre pro pozitivní a negativní sentiment. Můžete tak identifikovat ambivalentní dokumenty, které obsahují jak pozitivní, tak i negativní vyznění.

Modul odliší i dokumenty bez sentimentu a vyhodnotí jako neutrální. 

Extrakce termínů

Volný text zapsaný v přirozeném jazyce ukrývá velké množství informací. Aby tyto informace mohly být vytěženy pomocí běžného strojového učení, je třeba dokumenty popsat sadou strukturovaných atributů.

Z každého dokumentu jsou extrahovány hesla vypovídající o jeho obsahu.  Hesla je možné využít jako strukturovanou reprezentaci textových dokumentů v úlohách na zpracování samotných dokumentů, jako jsou klasifikace či klastrování dokumentů.

Extrahovaná hesla zahrnují klíčová slova uvedená v základním tvaru. Obsahují jak jednoslovné termíny, tak sousloví. 

Díky specifickým lingvistickým zdrojům se nemusí jednat o přesné termíny z textu, ale do jednoho hesla mohou být shrnuta synonyma nebo například heslo může vyjadřovat plné znění zkratky vyskytující se v textu. 

Kromě klíčových slov v heslech najdeme jména osob, firem či míst.

Další možnosti modulu

Plná integrace modulu do softwaru IBM SPSS Statistics obohacuje možnosti analýzy strukturovaných dat o nové informace z dat nestrukturovaných.

Vlastní zpracování textu se neprovádí na serveru či klientské stanici, kde je nainstalován IBM SPSS Statistics, nýbrž textová data se zabezpečeně posílají na vzdálený textminingový server, kde jsou umístěny rozsáhlé lingvistické zdroje a výkonné procedury pro zpracování textů v přirozených jazycích.

  • Doplnění chybějící
  • diakritiky

Před extrakci strukturovaných atributů či klasifikaci podle sentimentu je možné předřadit proceduru pro automatické obnovení diakritiky u českých či slovenských textů.

  • Automatické rozpoznání
  • jazyka

Pokud potřebujete zahrnout do analýzy dokumenty v různých jazycích, můžete zapnout automatickou detekci jazyka. Rozpoznaný jazyk dokumentu je k němu přidán jako nový atribut.

Integrace do IBM SPSS Statistics

Procedury "Analýza sentimentu"  a "Extrakce termínů" jsou plně integrovány do prostředí statistického softwaru IBM SPSS Statistics jako položka v menu Custom.

Zůstaňte s námi v kontaktu.