ACREA TEXT MINING

- nástroj pro analýzu textu v českém a slovenském jazyce

Objevte nadstavbový modul dataminingového softwaru IBM SPSS Modeler, který dokáže nestrukturovaná data převést do strukturované podoby vhodné pro další strojové zpracování. Modul umožňuje nejen klasifikovat, seskupovat či jinak zpracovávat textové dokumenty, ale také využít informaci ukrytou v českém či slovenském textu pro zdokonalení vašich predikčních modelů.

Uzly ACREA Text Mining

Termíny

Extrahujte klíčová slova a sousloví z volných textů. Nalezené termíny se stanou základem pro analýzu obsahu a všechny predikční textminingové úlohy. Extrahovaná slova a sousloví jsou v základním tvaru (1. pád jednotného čísla nebo infinitiv). Důležitost termínu pro každý dokument je možné číselně kvantifikovat.

Sentiment

Získejte sentiment z komentářů, mailů, přepisů telefonních hovorů nebo recenzí vašich zákazníků. Procedura ohodnotí každý dokument dle postoje autora. Nejenže se každý dokument zařadí do pozitivní, negativní, neutrální či ambivalentní kategorie, ale k dispozici jsou i číselné kvantifikace pozitivního a negativního vyznění dokumentu.

Pojmenované entity

Najděte v textech všechna jména osob, firem a lokalit. Nalezené pojmenované entity jsou v základním tvaru (1. pád jednotného čísla). Z pojmenovaných entit můžete vytvořit vztahové mapy, přiřadit jim sentiment nebo je prostě využít jako prediktory v textminingových úlohách.

Textové soubory

Naplňte datovou matici texty uloženými v mnoha textových souborech. Díky podpoře běžných typů kódování češtiny a slovenštiny máte jistotu, že písmena s diakritikou se správně načtou. A pokud jsou dokumenty dlouhé, je možné je před analýzou rozdělit na odstavce a ty zpracovávat odděleně.

Regulární výrazy

Vyhledávejte v dokumentech URL, čísla dokladů, e-maily, finanční částky nebo jen rozdělte text na slova. Regulární výrazy obsahují speciální zástupné znaky, které je možno ztotožnit s mnoha konkrétními znaky v textu. Pokud neznáte syntaxi, použijte implementovanou kalkulačku pro intuitivní psaní regulárních výrazů.

Editační vzdálenost

Zkoumejte, jak jsou si texty podobné. Může se jednat jen o hledání morfologických tvarů daného slova nebo překlepů, ale lze porovnávat i podobnost celých článků a jiných autorských prací. Na měření podobnosti si můžete vybrat jakoukoli z běžně používaných editačních vzdáleností.

Oblak slov

Nakreslete si obrázek s důležitými termíny, pojmenovanými entitami či s výsledky hledání. Lépe se prezentuje než četnostní tabulky. U oblaku slov si můžete vybrat z několika tvarů a různou velikostí písma podle četnosti výskytu. Pokud vám nevyhovuje rozmístění slov v oblaku, nechte ho překreslit nebo jednoduše změňte velikost okna.

Náhled na dokumenty

Získejte kompaktní náhled na texty z kolekce zpracovávaných dokumentů. Zobrazené úryvky (snippets) umožní lepší orientaci v dokumentech než zobrazení v datové matici. Navíc je možné u každého dokumentu zobrazit celou řadu metadat jako jsou autor, sentiment nebo zdroj článku. K nadpisům a vybraným metadatům můžete přiřadit hypertextové odkazy.

Úlohy ACREA Text Mining a IBM SPSS Modeler

Analýza obsahu

Neztrácejte čas čtením velkého množství dokumentů. Nechte si z nich vyextrahovat důležité termíny, osoby, firmy a lokality a případně i zjistěte jejich sentiment. Výsledky lze snadno vizualizovat grafickými nástroji IBM SPSS Modeler a získat tak rychlý přehled o tématech, o kterých se v dokumentech píše. Reportovat můžete třeba i časový vývoj jednotlivých témat.

Vyhledávání

Potřebujete k jednomu dokumentu ve velké kolekci dokumentů najít ty nejpodobnější? Reprezentujte všechny dokumenty pomocí klíčových slov nebo pojmenovaných entit a spočtěte si jejich podobnost. Podle spočtené podobnosti můžete výsledky řadit nebo filtrovat.

Klasifikace

Klasifikační model roztřídí velké množství textových dokumentů do předem známých kategorií. Dokumenty lze roztřídit na základě klíčových slov, pojmenovaných entit či jiných atributů extrahovaných z volného textu. Při vybírání optimálního klasifikačního algoritmu si můžete vybrat z pestré škály modelů, které nabízí IBM SPSS Modeler.

Seskupování

Chcete otevřené odpovědi, došlé emaily nebo recenze roztřídit do zatím neznámých skupin tak, aby si dokumenty ve skupině byly podobné? Extrahujete z dokumentů klíčová slova, pojmenované entity či sentiment a vyberte si z pestré škály seskupovacích procedur IBM SPSS Modeler nejvhodnější algoritmus. Interaktivní výstupy vám pomohou vybrat nejlepší řešení a interpretovat zaměření nalezených skupin.

Další možnosti softwaru

Plná integrace modulu do softwaru IBM SPSS Modeler umožňuje zařazení jednotlivých textminingových uzlů do proudů pro přípravu dat, jejich analýzu, modelování a predikce. Obohacuje tak možnosti analýzy strukturovaných dat o nové informace z dat nestrukturovaných, které mohou zkvalitnit výsledné modely.

Podpora češtiny a slovenštiny

Modul je vytvořen především pro práci s dokumenty psanými česky a slovensky. Podporuje však i další jazyky jako je angličtina, němčina nebo španělština. Čeština a slovenština jsou morfologicky bohaté, vyznačují se velkým množstvím tvarů slov. Extrahované termíny, osoby a lokality jsou automaticky převáděny do základního tvaru (1. pád jednotného čísla nebo infinitiv).

Integrace do IBM SPSS Modeleru

Textminingové procedury modulu ACREA Text Mining jsou záměrně zasazeny do prostředí IBM SPSS Modeler. Lze je kombinovat v proudech s ostatními uzly Modeleru a můžete je i ovládat pomocí skriptů v jazyce Python. Uzly modulu ACREA Text Mining umožní v Modeleru vytěžovat a kombinovat jak strukturovaná, tak textová data.

Skórování

Pokud potřebujete číselně kvantifikovat důležitost extrahovaných termínů pro jednotlivé dokumenty, nechte si připojit skóre ke každému termínu. Skóre zohledňuje četnost a polohu výskytu termínu v dokumentu. Kvantifikovat můžete i sentiment. K dispozici je číselné vyjádření pozitivního a negativního vyznění každého dokumentu.

Rozpoznání jazyka

Pracujete s kolekcí dokumentů psaných v různých jazycích? Zapněte si automatické rozpoznávání jazyka a všechny jazykově závislé procedury modulu budou při zpracování každého dokumentu využívat ty správné slovníky, gramatiky a další specifické jazykově závislé zdroje. Rozpoznávání je možné omezit jen na vybranou sadu jazyků.

Diakritizace

Máte některé odpovědi, komentáře či e-maily napsané bez háčků a čárek? Zapněte si v jazykově závislých procedurách diakritizaci. Před zpracováním českých a slovenských dokumentů se doplní chybějící diakritika tam, kde chybí.

VYUŽITÍ TEXT MININGU V PRAXI

Vyberte si z typických úloh, které lze pomocí softwaru IBM SPSS Modeler s modulem ACREA Text Mining  a se zkušenostmi analytiků ACREA řešit.

Výběr důležitých dokumentů

Výběr a seřazení dokumentů podle relevance na ty, které jsou podstatné a jejich oddělení od těch nepodstatných, vám dokáže ušetřit čas a soustředit se na to důležité. Podle relevance je možné filtrovat novinové články, tiskové zprávy, prohlášení mluvčích, přepsané telefonní hovory či projevy politiků. Relevance dokumentů může být zacílena například na monitorování vaší konkurence, vybraných produktů, trendů apod.

Roztřídění dokumentů dle kompetencí osob

V organizacích je třeba, aby se požadavky zákazníků dostaly co nejrychleji k osobě kompetentní k jejich vyřízení. Manuální rozdělování došlé korespondence je však časově náročné a málo efektivní. Pomocí klasifikace příchozích dokumentů do skupin podle obsahu a přání zákazníků model rozřadí dokumenty do předem definovaných kategorií, které odpovídají kompetencím a schopnostem pracovníků zodpovědných za vyřizování požadavků.

Sledování pozitivního či negativního sentimentu u produktů a služeb

Postoje jsou klíčové při řízení vztahu se zákazníky a sledování jejich mínění. Rozpoznání pozitivního či negativního sentimentu se využívá pro detekci problémů s konkrétními produkty/službami nebo u problémů při vyřizování požadavků a reklamací zákazníků. Při zjištění zvyšujícího se negativního sentimentu tak můžete urychlit zásah do procesu pro jeho nápravu.

  • Měření loajality
  • zákazníků

Postoje zákazníků jsou spjaty s jejich loajalitou. Tu lze měřit pomocí Net Promoter Score (NPS). U zákazníků, kde však nebyla NPS měřena a máme k dispozici jejich komentáře, recenze, doporučení, stížnosti, reklamace apod., můžeme NPS odhadnout modelem nebo přímo předpovídat jejich loajalitu z analýzy sentimentu jejich výpovědí.

Zlepšení predikčních modelů

Hlavním přínosem textminingu je možnost obohacení běžných strukturovaných dat o atributy extrahované z textových dokumentů. Například při detekci pojistných podvodů jsme schopni zlepšit model poskytující rizikové skóre podvodu při hlášení pojistné události využitím záznamů telefonního hlášení nebo textů elektronicky zaslaného popisu události.

  • Zpřesnění
  • cenových odhadů

Z dostupných textů můžeme zpřesnit například i znalecké odhady tržních cen nemovitého i movitého majetku. Popis lokality nemovitosti či stavu zařízení nabízí přesnější informace než standardizované odhadní koeficienty. Z textů je možné extrahovat i nové vlastnosti ovlivňující odhadní cenu. Následné regresní modely predikující cenu, tyto vlastnosti kvantifikují a nabídnou tak přesnější odhady.