Rには、MeCabという形態素解析を行うソフトウェアと連携し、日本語のテキストマイニングを行う環境を備えることができます。形態素解析は文章を形態素に分解し、各形態素の品詞を特定します。形態素とは、言語学で言うところの「意味を持つ語の最小単位」です。RにはRMeCabというテキストマイニングを行うためのパッケージがあり、文章の解析ができるようになりますので、使い出のある機能を提供します。RMeCabは、Rで入力された日本語のテキストをMeCabで解析し、その解析結果をRで表示したり、形式を整えてファイルに出力したりします。ここでは、RでRMeCabを使えるようにする準備と、簡単なテキスト解析を例示します。
まず、MeCabをダウンロードし、インストールします。OSとしてWindowsを想定しています。MeCabは工藤拓氏によって開発され、http://taku910.github.io/mecab/ に説明があります。Rのバージョン4.2 以降、オリジナルのMeCabでは動作しません。以下から64bit版MeCabをダウンロードし、インストールします。辞書としてUTF-8を指定して下さい。
下の方にスクロールすると、「mecab-64-0.996.2.exe」という実行ファイルがあります。それをクリックしてダウンロードします。
ダウンロードされたファイルをダブルクリックしますと、インストールが始まります。幾つかポップアップ画面が出て来ますが、基本defaultのままOKでよいです。ただし、辞書としてUTF-8を指定して下さい。
MeCabは、CドライブのProgram Filesの中に入ります。Windowsではこれで辞書もインストールされますので、すぐRMeCabが使えます。Windows「スタート」ボタンから「MeCab64」の中の「MeCab」を選択すると、MeCabが起動します。ウィンドウ画面が出てきますので、何か文章を入力します。形態素解析の結果が表示されれば、MeCabが正常にインストールされたことがわかります。 ただし、文字化けしていると思います。これは、コマンドプロンプトがUTF-8に対応していないからですが、とにかくインストールできました。
次に、RMeCabをインストールします。RMeCabは石田基広氏によって開発され、Rのinstall.packagesでインストールできます。RStudioを起動し、以下のコマンドを実行してインストールします。
> install.packages("RMeCab", repos = "http://rmecab.jp/R")
インストールに成功したら、以下のコマンドを入力して、正常にインストールされたことを確認します。
> library(RMeCab)
> rmec <- RMeCabC("私は誰だ。")
> unlist(rmec)
名詞 助詞 名詞 助動詞 記号
"私" "は" "誰" "だ" "。"
>