Word Count の単語リストなどで、数字を別々の文字ではなく数字としてまとめて扱いたい場合は、数字を # に置き換える処理ができます。
設定の一般にあるテキスト処理で、数字の扱い方を選べます。
そのまま:数字を数字の文字のまま扱います。
数字のみの文字列を # に変換:数字と数字に挟まれたコンマ・ピリオドが連続する文字列 (10,000.00 など) を全角の#で置き換えます。多くの言語で数値として扱われている文字列を 1 つにまとめる処理をするということです。100th などは、そのまま残ります。
すべての数字を#に変換:数字の文字列が連続する部分を全角の#で置き換えます。10,000.00 は#,#.#となるため、#が 3 回と集計されます。100th は#th として集計されます。
数字のみの文字列を無視:数字と数字に挟まれたコンマ・ピリオドが連続する文字列をテキストから削除して分析処理が行われます。
ここで注意が必要なのは、数字の置き換えに全角の#を利用しているので、日本語のテキストなどで#が使われている場合は、不具合が起きる可能性があります。
次の例は、Word Count で、数字のみの文字列を # に変換を選んだ場合 (左) とすべての数字を#に変換を選んだ場合 (右) の単語リストで #を含む項目をフィルタをかけて残したものです。数字のみの文字列を # に変換では数値と認識される文字列だけが#になっているので、#だけがリストに残ります。すべての数字を#に変換では、数字を一部に含む文字列の数字部分が#に変換されるため、数字を含む文字列がリストに残ります。
この機能を使って 4-gram リストを作ると、次のような結果になります。