Košík je prázdný

Sémantické značkování dokumentů

uzel Labels

Uzel Labels extrahuje z textového dokumentu termíny charakterizující obsah dokumentu. Termíny obsahují klíčová slova a pojmenované entity. Typy termínů je možné zaznamenat do datové matice jako nový atribut s hodnotami KEYWORDS a ENTITIES. Volitelně lze ke každému termínu přiřadit číselné skóre úměrné četnosti a poloze termínu v dokumentu. Před extrakci termínů lze předřadit automatické rozpoznání jazyka a diakritizaci dokumentů psaných bez diakritiky.

Uzel Labels restrukturalizuje datovou matici na dlouhý formát, kde řádky reprezentují jednotlivé nalezené termíny. Jeden dokument je v dlouhém formátu reprezentován více řádky sdílejícími stejný identifikátor dokumentu. Dlouhý formát umožní snadněji s termíny manipulovat. Pro modelování je vhodné vybrané termíny transformovat na široký formát pomocí uzlu Restructure nebo SetToFlag.

záložka Settings

Document ID field
Atribut s jednoznačnou identifikací dokumentu. Může být textový nebo celočíselný.
Document text field
Textový atribut obsahující text dokumentu.
Label field name
Jméno nového atributu s extrahovanými termíny.
Add label scores
Připojení skóre termínu do nového atributu.
Score field name
Jméno nového atributu s číselným skóre termínů.
Language of documents
Jazyk dokumentů. Na výběr je čeština (Czech), slovenština (Slovak) a automatická detekce jazyka (Automatic detection).
Restore diacritics
Automatická diakritizace dokumentů neobsahujících diakritiku. Diakritizace se provede před extrakcí termínů.
Add label types
Připojení typu termínu do nového atributu.
Label type field name
Jméno nového atributu s typem termínu.

záložka Optimization

Send requests in batches
Dávkové zasílání dokumentů na server.
Batch size
Počet dokumentů v dávce.
Number of paralel web requests
Počet paralelních vláken pro zpracování dokumentů. Vlákna pracují na sobě nezávisle, proto se pořadí dokumentů na výstupu může lišit od pořadí na vstupu.