CasualMecab - Single

Single モードでは、日本語のテキストファイルを開き、Mecab を使って形態素分析をすることができます。

Single モードには、入力(左)と出力(右)の2つのテキスト表示エリアがあります。

基本機能

日本語のテキストファイルを開くには、メニューから File -> Open... を選びます(もしくは、command + O)。

ファイルを選ぶように促されます。

次のファイル形式がサポートされています。

Plain Text (.txt)

Rich Text Format (.rft, .rtfd)

MS Word (.doc, .docx)

HTML (.html, htm)

Web Archive (.webarchive) from Safari [WebKit]

OpenOffice (.odt, .sxw)

プレインテキスト(.txt)を開く場合には、文字コードを指定します。文字コードは次のものが指定できます。

UTF-8 - unicode (Mac Standard)

UTF-16 - Little endian(?)

SJIS - shift_jis (Windows Standard)

EUC - euc-jp (Unix Standard)

JIS - iso-2022-jp

テキストは左側の表示エリアに表示されます。プレインテキスト以外のファイルを開いた場合には、文字の装飾情報は保持されません。(プレインテキストとして読み込まれます。)

ここで、必要ない部分を編集して削除します。

準備ができたら、Parse ボタンをクリックします。

青空文庫から入手したファイルの場合には、いくつかの特定のフォーマットがあります(文字コードは Shift-JIS の場合が多いかと思います)。そのうちいくつかに対応させた機能があるので、このページの下の方を見てください。

デフォルトでは、Mecab 標準の出力が得られます。

この上のファイルは、次のように分析されます。

この他の出力設定は、下の Preferences(環境設定)を参照してください。

テキストを処理したら、メニューから File -> Save を選んで(もしくは、command + S)保存します。

保存はプレインテキストのみとなっています。文字コードを選択して保存してください。

Single モード Preferences(環境設定)

ここでは、出力の形式を指定することができます(Batch モードも共通です)。

次の 6 つの形式があります。

ここでは、それぞれのサンプルを表示して説明しますが、どれも、次の一文を使っています(夏目漱石「こころ」の最初の文)。

私はその人を常に先生と呼んでいた。

MeCab

MeCab は Mecab の標準出力です。

私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ

は 助詞,係助詞,*,*,*,*,は,ハ,ワ

その 連体詞,*,*,*,*,*,その,ソノ,ソノ

人 名詞,一般,*,*,*,*,人,ヒト,ヒト

を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ

常に 副詞,一般,*,*,*,*,常に,ツネニ,ツネニ

先生 名詞,一般,*,*,*,*,先生,センセイ,センセイ

と 助詞,格助詞,一般,*,*,*,と,ト,ト

呼ん 動詞,自立,*,*,五段・バ行,連用タ接続,呼ぶ,ヨン,ヨン

で 助詞,接続助詞,*,*,*,*,で,デ,デ

い 動詞,非自立,*,*,一段,連用形,いる,イ,イ

た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

。 記号,句点,*,*,*,*,。,。,。

Chasen

Chasen は、茶筅のような出力形式です。

私 ワタシ 私 名詞-代名詞-一般

は ハ は 助詞-係助詞

その ソノ その 連体詞

人 ヒト 人 名詞-一般

を ヲ を 助詞-格助詞-一般

常に ツネニ 常に 副詞-一般

先生 センセイ 先生 名詞-一般

と ト と 助詞-格助詞-一般

呼ん ヨン 呼ぶ 動詞-自立 五段・バ行 連用タ接続

で デ で 助詞-接続助詞

い イ いる 動詞-非自立 一段 連用形

た タ た 助動詞 特殊・タ 基本形

。 。 。 記号-句点

Wakachi

Wakachi は、分かち書きです。

私 は その 人 を 常に 先生 と 呼ん で い た 。

Yomi

Yomi は、カタカナでの読みです。

ワタシハソノヒトヲツネニセンセイトヨンデイタ。

Tag

CasualMecab は、形態素情報を使ってタグを付けた出力もできます。

次の 5 つの形式があります。まずこれを選びます。

次に、タグとして使いたい情報を選びます。

<*>~</*>

XMLのような形式です。タグには、選んだ情報が使われます。

<名 詞>私</名詞> <助詞>は</助詞> <連体詞>その</連体詞>

もし、2 つ以上の情報を選ぶと、下線 [_] でつなげて全て使われます。

<名詞_代名詞>私</名詞_代名 詞> <助詞_係助詞>は</助詞_係助詞> <連体詞>その</連体詞>

~_*

形態素情報は、下線 [_] に続いて単語に追加されます。

私_名詞 は_助詞 その_連体詞 人_名詞 を_助詞 常に_副詞 先生_名詞 と_助詞 呼ん_動詞 で_助詞 い_動詞 た_助動詞 。_記号

~/*

形態素情報は、スラッシュ [/] に続いて単語に追加されます。

私/名詞 は/助詞 その/連体詞 人/名詞 を/助詞 常に/副詞 先生/名詞 と/助詞 呼ん/動詞 で/助詞 い/動詞 た/助動詞 。/記号

~<*>

形態素情報は、括弧で囲われて単語の後ろに追加されます。

私<名詞> は<助詞> その<連体詞> 人<名詞> を<助詞> 常に<副詞> 先生<名詞> と<助詞> 呼ん<動詞> で<助詞> い<動詞> た<助動詞> 。<記号>

<w label="*">~</w>

形態素情報を属性として扱う XML 形式です。

<w pos="名詞">私</w> <w pos="助詞">は</w> <w pos="連体詞">その</w>

これには 2 つのオプションがあります。

Word per Line - 一つの単語が一行に表示されます。これは、上の XML のような形式でも使えます。

<w pos="名詞">私</w>

<w pos="助詞">は</w>

<w pos="連体詞">その</w>

<w pos="名詞">人</w>

日本語ラベル - label に日本語を使います。

<w 品詞="名詞">私</w> <w 品詞="助詞">は</w> <w 品詞="連体詞">その</w>

T Wakachi

このオプションでは、分かち書きですが、単語を形態素情報で置き換えます。

名詞 助詞 連体詞 名詞 助詞 副詞 名詞 助詞 動詞 助詞 動詞 助動詞 。

Skip 記号にチェックが入っていると、記号と判断された文字はタグを付けません。タグを付ける全てのオプションで使えます。

私_名詞 は_助詞 その_連体詞 人_名詞 を_助詞 常に_副詞 先生_名詞 と_助詞 呼ん_動詞 で_助詞 い_動詞 た_助動詞 。

青空文庫機能

CasualMecab には、青空文庫のファイルにある特定の文字列を扱う機能がついています。

漢字置き換え

青空文庫では、標準的でない漢字を部首などを使って説明してあることがあります。

※[#「てへん+劣」、第3水準1-84-77]

CasualMecab には、このような置き換えを情報として保持したり、一括して置き換えたりする機能があります。

メニューから Window -> Search Aozora Sub Kanji を選びます。

Substitute Kanji パネルが開きます。開くと、注の形式にそったものが選び出されます。

デフォルトの状態では、Kanji 列の所は空白になっているはずです。ダブルクリックして、対応する漢字を入力します。

どれかを選ぶと、テキスト内のその注のところに移動して表示されます。上のテーブルの一番下の例では、次のようになりました。

もし、同じ注(漢字)が 2 ヶ所以上ある場合は、Find Next ボタンをクリックして次に移動します。

対応する漢字を入力したら、Replace ボタンをクリックして置き換えます。Replace All をクリックすると、テーブル上のすべてを置き換えます。

上の例の部分を置換すると次のようになりました。

もし、注と対応した幹事の組み合わせを保存したい場合は、置換する前に、Add to Dictionary ボタンをクリックします。

選択した組み合わせは、辞書に保存されて、次に同じ注が別のファイルであった場合には、テーブル上で対応する漢字があらかじめ表示されます。

辞書の内容をチェックするには、メニューから Window -> Open Sub Kanji Dictionary を選びます。

Kanji Substitute Dictionary が表示されます。

消したい組み合わせがある場合は、選択して Delete ボタンをクリックします。

ルビ削除

青空文庫のファイルには、ルビが情報として入っているものがあります(《》:ルビ)。これを一括して削除します。

Delete Aozora Ruby ボタンをクリックしてください。

削除前

削除後