Sémantické značkování dokumentů

uzel Labels

Uzel Labels extrahuje z textového dokumentu termíny charakterizující obsah dokumentu. Termíny obsahují klíčová slova a pojmenované entity. Typy termínů je možné zaznamenat do datové matice jako nový atribut s hodnotami KEYWORDSENTITIES. Volitelně lze ke každému termínu přiřadit číselné skóre úměrné četnosti a poloze termínu v dokumentu. Před extrakci termínů lze předřadit automatické rozpoznání jazyka a diakritizaci dokumentů psaných bez diakritiky.

Uzel Labels restrukturalizuje datovou matici na dlouhý formát, kde řádky reprezentují jednotlivé nalezené termíny. Jeden dokument je v dlouhém formátu reprezentován více řádky sdílejícími stejný identifikátor dokumentu. Dlouhý formát umožní snadněji s termíny manipulovat. Pro modelování je vhodné vybrané termíny transformovat na široký formát pomocí uzlu Restructure nebo SetToFlag.

záložka Settings

  • Document ID field
    Atribut s jednoznačnou identifikací dokumentu. Může být textový nebo celočíselný.
  • Document text field
    Textový atribut obsahující text dokumentu.
  • Label field name
    Jméno nového atributu s extrahovanými termíny.
  • Add label scores
    Připojení skóre termínu do nového atributu.
  • Score field name
    Jméno nového atributu s číselným skóre termínů.
  • Language of documents
    Jazyk dokumentů. Na výběr je čeština (Czech), slovenština (Slovak) a automatická detekce jazyka (Automatic detection).
  • Restore diacritics
    Automatická diakritizace dokumentů neobsahujících diakritiku. Diakritizace se provede před extrakcí termínů.
  • Add label types
    Připojení typu termínu do nového atributu.
  • Label type field name
    Jméno nového atributu s typem termínu.

záložka Optimization

  • Send requests in batches
    Dávkové zasílání dokumentů na server.
  • Batch size
    Počet dokumentů v dávce.
  • Number of paralel web requests
    Počet paralelních vláken pro zpracování dokumentů. Vlákna pracují na sobě nezávisle, proto se pořadí dokumentů na výstupu může lišit od pořadí na vstupu.