fbpx

Vyhledávání pomocí regulárního výrazu

Uzel Regular Expression

Uzel Regular Expression hledá v textovém dokumentu všechny řetězce vyhovující regulárnímu výrazu. Volitelně lze do datové matice přidat pozice nalezených řetězců v dokumentu.

Pro psaní a syntaktickou kontrolu regulárních výrazů je možné použít kalkulačku. Kalkulačka umožňuje do výrazů vkládat nejpoužívanější speciální znaky. Po stisknutí tlačítka Check se vkládaný výraz v kalkulačce obarví zeleně, pokud je zápsán sysntakticky správně. Chybný výraz se obarví červeně.

Uzel Regular expression restrukturalizuje datovou matici na dlouhý formát, kde řádky reprezentují nalezené řetězce. Jeden dokument je v dlouhém formátu reprezentován více řádky sdílejícími stejný identifikátor dokumentu.

záložka Settings

  • Document ID field. Atribut s jednoznačnou identifikací dokumentu. Může být textový nebo celočíselný.
  • Document text field. Textový atribut obsahující text dokumentu.
  • Regular Expression. Hledaný regulární výraz. Výraz lze zapsat z klávesnice nebo stisknout tlačítko (.*) a využít k psaní kalkulačku regulárních výrazů.
  • Matched text field name. Jméno nového atributu s nalezenými řetězci.
  • Add boundaries of matched text. Připojení atributů s pozicí nalezeného řetězce. K datové matici se připojí atributy s počáteční a koncovou pozicí.
  • Start position field name. Jméno nového atributu s pozicí prvního znaku nalezeného řetězce.
  • End position field name. Jméno nového atributu s pozicí posledního znaku nalezeného řetězce.

Potřebujete poradit, jak využívat vaše data? Chcete zefektivnit a urychlit vaši práci? Nevíte, jaký software je pro vaše řešení ten správný?

Využijte naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Zůstaňte s námi v kontaktu.