ここでのタグ設定は、単語ごとにつけた POS タグなどではなく、セクションなどを区分するための使うコンテクストタグや、ファイルの情報を記録するために使うヘッダタグを扱うための機能です。XML タイプのタグの使用を前提としています。
セクションを区分するために使う XML タイプのタグを指定して、ファイル中の一部のテキストを処理したり無視したりすることができます。正規表現を利用した処理と XPath を利用した処理ができます。
また、タグを利用しませんが、特定の文字列を含むファイルや段落 (改行コードで区切られた文字列) のみ処理するように設定したり、正規表現にマッチする文字列を削除して処理するように設定することもできます。
XPath を利用して、ヘッダタグで記録されたファイルの情報をもとに、処理するファイルを選別することができます。