fbpx

Extrakce dokumentů z textových souborů

Uzel Text files

Vstupní uzel Text files prohledá složku a z nalezených souborů extrahuje texty do textové proměnné text. Prohledávání je možné uskutečnit rekurzivně. Nastavením kódování zajistíme korektní načtení znaků s diakritikou. Extrahované dokumenty jsou identifikované názvem souboru včetně cesty v proměnné file.

Při načítání dlouhých dokumentů je vhodné nastavit odstavcový mód, kdy je každý načtený soubor nejprve rozdělen na odstavce a teprve odstavce se vloží do textové proměnné text jako dokumenty. Oddělené zpracování odstavců nabídne větší detail při následné analýze textů.

záložka Settings

  • Folder to scan. Cesta ke složce se soubory. Cesta může obsahovat normální nebo zpětná lomítka. Koncové lomítko je volitelné. Cestu lze zadat i pomocí tlačítka ....
  • Include subfolders. Rekurzivní prohledávání podsložek.
  • File type. Hledat se budou jen soubory zvoleného typu. Na výběr jsou všechny typy souborů (All files (*.*)), textové soubory (Text files (*.txt)) a soubory se značkovacími jazyky (Markup langue files (*.xml, *.html, *.htm)).
  • Extract text. Obsah nalezených souborů se extrahuje jako text dokumentů do textové proměnné.
  • Encoding. Kódování textu v hledaných souborech. Na výběr jsou všechna kódování Unicodu a kódové stránky CP-1250 a CP-1252.
  • Separate paragraphs. Z každého odstavce v nalezeném souboru vznikne samostatný dokument.
  • Skip empty paragraphs. Prázdné odstavce se v odstavcovém módu ignorují.

Potřebujete poradit, jak využívat vaše data? Chcete zefektivnit a urychlit vaši práci? Nevíte, jaký software je pro vaše řešení ten správný?

Využijte naši nezávaznou konzultaci, při které vám rádi zodpovíme všechny vaše dotazy a najdeme vhodné řešení.

Zůstaňte s námi v kontaktu.