fbpx

Vyhledávání pojmenovaných entit

Uzel Entities

Uzel Entities extrahuje z textového dokumentu jména všech pojmenovaných entit. Pojmenovanou entitou může být osoba, organizace nebo místo. Typy entit se zaznamenávají do datové matice jako nový atribut s hodnotami person, organization, location. Před extrakci termínů lze předřadit automatické rozpoznání jazyka a diakritizaci dokumentů psaných bez diakritiky.

Ke každé entitě je možné připojit sentiment spojený s entitou a případně ho kvantifikovat pomocí skóre. Kategorie sentimentu jsou very negative, negative, neutral, positive, very positive, ambivalent. Celkové skóre nabývá hodnot od -1 do +1. Kladné hodnoty indikují pozitivní sentiment, záporné negativní. Celkové skóre je součtem pozitivního a negativního skóre.

Uzel Entities restrukturalizuje datovou matici na dlouhý formát, kde řádky reprezentují nalezené pojmenované entity. Jeden dokument je v dlouhém formátu reprezentován více řádky sdílejícími stejný identifikátor dokumentu.

záložka Settings

  • Document ID field. Atribut s jednoznačnou identifikací dokumentu. Může být textový nebo celočíselný.
  • Document text field. Textový atribut obsahující text dokumentu.
  • Entity field name. Jméno nového atributu se jmény entit.
  • Entity type field name. Jméno nového atributu s typy pojmenovaných entit.
  • Language of documents. Jazyk dokumentů. Na výběr je čeština (Czech), slovenština (Slovak) a automatická detekce jazyka (Automatic detection).
  • Restore diacritics. Automatická dikritizace dokumentů neobsahujících diakritiku. Diakritizace se provede před vyhledáním pojmenovaných entit.
  • Add entity sentiment. Připojení atributů se sentimentem entit.
  • Sentiment field name. Jméno nového atributu s kategorií sentimentu entit.
  • Add sentiment scores. Vytvoření nových atributů obsahujících číselná skóre sentimentu. K datové matici se připojí atributy s celkovým skóre, s pozitivním skóre a s negativním skóre.
  • Total score field name. Jméno nového atributu s celkovým skóre.
  • Positive score field name. Jméno nového atributu s pozitivním skóre.
  • Negative score field name. Jméno nového atributu s negativním skóre.

záložka Optimization

  • Send requests in batches. Dávkové zasílání dokumentů na server.
  • Batch size. Počet dokumentů v dávce.
  • Number of paralel web requests. Počet paralelních vláken pro zpracování dokumentů. Vlákna pracují na sobě nezávisle, proto se pořadí dokumentů na výstupu může lišit od pořadí na vstupu.

Potřebujete poradit, jak využívat vaše data? Chcete zefektivnit a urychlit vaši práci? Nevíte, jaký software je pro vaše řešení ten správný?

Využijte naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Zůstaňte s námi v kontaktu.