CasualMecab

CasualMecab 日本語形態素解析エンジン MeCab を使って、日本語テキストを処理するユーティリティです。このユーティリティを使うためには MeCab が必要です。インストールにはターミナルからのコマンドライン入力が必要ですが、このページにスクリーンショット付きでインストールの手順を書いておきましたので、手順通りにいけばインストールできるはずです。とりあえず、作りっぱなしで最近あまり手を付けていませんが、出力に関して何か希望がありましたら、MeCab の標準出力(CasualMecab で得られる、処理されたテキスト)にある情報であれば、できるだけそれに答えられるようにしたいと思います。(例えば、品詞名、原型などの抜きだしなど。)Sierra / High Sierra では動きません。今の所、対応予定もありません。MeCabによるタグ付は、CasualTagger もしくは CasualConc の最新版でできます。ただし、MeCabのインストールが別途必要です(下記インストーラーを利用してください)。

システム必要条件: Mac OS X 10.6.8 Snow Leopard 以降が動作している MeCab がインストールされた Mac Sierra / High Sierra では動きません。

現在のバージョンは、0.7 です。

Yosemiteで動作するバージョンもリリースしました。こちらも、MeCab がインストールされている必要があります。Sierra / High Sierra では動きません。

システム必要条件: Mac OS X 10.9 Maverics 以降が動作している MeCab がインストールされた Mac (Yosemite 対応)

MeCab および MeCab-Ruby のインストーラーを作ってみました。十分にテストしていませんが(うちの Mac でしか試せていないということです)、試してみてもよいという方は、結果を報告していただけると助かります。あと、文字コードは、UTF-8 になってます。これを使って両方をインストールすれば、CasualMecab は動くはずです。そのほか、CasualConc、CasualTagger でも使えるようになるはずです。

システム必要条件:Yosemite (OS X 10.10) 以降がインストールされた Mac(10.12 Sierra 対応)

システム必要条件: Mac OS X 10.6 Snow Leopard 以降が動作している 64-bit Mac

システム必要条件:Mountain Lion (OS X 10.8) がインストールされた Mac

ここにある CasualMecab の使い方の説明は古いバージョンのものです。現在のバージョンでは、もう少し機能を増やしましたが、なかなかこのページをアップデートする時間がないので。また、まだ機能変更する可能性があるものもあるので、ある程度仕様が固まったら使い方も最新のものに合わせます。(現在アップデート中です)

最新のベータには、ここにあるもののほかに、分かち書きにしたファイルを使った簡単な KWIC 機能や、単語頻度を数える(品詞情報なども使う)機能もついています。

使い方

Single

Single モードは、読み込んだファイルもしくはコピーアンドペーストで貼付けた日本語のテキストを一つずつ処理します。処理後の手直しなどもできるモードです。

Single モードには、テキストボックスが2つあります。左側が入力、右側が出力です。

Single モードの詳しい使い方は、CasualMecab - Singleにあります。

Batch

Batch は、対応ファイルをバッチ処理するモードです。元のファイルと別のフォルダに保存する場合は、元のファイル名でテキストファイルが作成されます。元のファイルと同じフォルダに保存するオプションを選んだ場合には、_mecab がファイル名に追加されて保存されます。.doc/.docx/.rtf ファイルも扱えるようになっています。PDF ファイルは強制改行の問題があるので対応させてありません(対応させることはでき ますが)。

    1. Add File(s) ボタンをクリックしてテーブルに対応ファイルを追加していきます。

    2. テーブルにファイルをドラッグアンドドロップしても追加できます。

    3. テーブルからファイルを削除したい場合は、削除したいファイルを選択して Delete Selected File(s) ボタンをクリックしてください。 Clear Table ボタンで、テーブル上のファイルをすべて消去することもできます。

    4. Delete Aozora Rubi にチェックが入っていると、青空文庫のルビ形式のもの《》が取り除かれてから処理されます。

    5. Preview にチェックを入れてテーブル上のファイルを選ぶと、ファイルの中身が確認できます。プレインテキストファイルで何も表示されないときは、他の文字コードをためしてください。

    6. テキストファイルの文字コード(.txt ファイルを含む場合)と処理オプションを選んでください。テキストファイルの文字コードはテーブル上でも変更できます。文字コードの異なるファイルが混在している場合は、どれか一つを選んで読み込んでからテーブル上で変更してください。

    7. Process ボタンをクリックして処理を開始します。パネルが表示されるので保存するフォルダを選んでください。

    8. Save to Original Folder をチェックしてある場合は、フォルダ選択のパネルは表示されず、元のファイル名に _mecab が追加されて元のファイルと同じフォルダに保存されます。