RMeCab‎ > ‎

UniDic

RMeCabでUniDicをつかえるように拡張した RMeCabUni ベータ(バージョン0.01) を公開します。
なお現段階では Mac OS X と Ubuntu でのみ動作確認しています。

以下の手順でご利用ください。

##########################

(1)  unidicのインストール

http://sourceforge.jp/projects/unidic/downloads/58338/unidic-mecab-2.1.2_src.zip
からunidicのソースファイルをダウンロードします。
これをコンパイルしてインストールします。


 # install unidic
 $  unzip unidic-mecab-2.1.2_src.zip
 $  cd unidic-mecab-2.1.2_src/
 $  ./configure
 $  make
 $  sudo make install

# UniDic辞書フォーマットを調整します。設定ファイルdicrc を編集します(このページの下に見本があります)

$ sudo vi /usr/local/lib/mecab/dic/unidic/dicrc

; 3箇所を ; でコメントアウトし、代りに3行を新たに追加します

;;  bos-feature = BOS/EOS,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*
bos-feature = BOS/EOS,*,*,*,*,*,*,*,*

;;  node-format-unidic = %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
node-format-unidic = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[10],%f[9],%f[11]\n
;;  unk-format-unidic  = %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-unidic = %m\t%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[10],%f[9],%f[11]\n


(2) 辞書を設定


設定ファイル mecabrc を編集します(このページの下に見本があります)

 $  cp /usr/local/etc/mecabrc  /Users/NAME/
# edit the file
 $  vi /Users/NAME/mecabrc

; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $;
; ipadicの行を ; でコメントアウトして、代わりに1行追加します
;dicdir =  /usr/local/lib/mecab/dic/ipadic
dicdir =  /usr/local/lib/mecab/dic/unidic

なおRMeCabは利用されている辞書を実行時に自動的に判定します。

# ファイル名を変更します

 $ mv /Users/NAME/mecabrc /Users/NAME/.mecabrc

# 試してみます。
# 新たにデフォルトに設定したunidic 辞書

$ echo "どの方法を用ゐても良い、用ふことを怠るくらゐなら。" | mecab
どの    連体詞,,,,,,どの,ドノ,ドノ
方法    名詞,普通名詞,一般,,,,方法,ホーホー,ホーホー
を    助詞,格助詞,,,,,を,オ,オ
用ゐ    動詞,一般,,,文語上一段-ワ行,連用形-一般,用ゐる,モチー,モチール
て    助詞,接続助詞,,,,,て,テ,テ
も    助詞,係助詞,,,,,も,モ,モ
良い    形容詞,非自立可能,,,形容詞,連体形-一般,良い,ヨイ,ヨイ
、    補助記号,読点,,,,,、,,
用    名詞,普通名詞,一般,,,,用,ヨー,ヨー
ふ    接尾辞,名詞的,一般,,,,ふ,フ,フ
こと    名詞,普通名詞,一般,,,,こと,コト,コト
を    助詞,格助詞,,,,,を,オ,オ
怠る    動詞,一般,,,五段-ラ行,終止形-一般,怠る,オコタル,オコタル
くらゐ    助詞,副助詞,,,,,くらゐ,クライ,クライ
なら    助動詞,,,,助動詞-ダ,仮定形-一般,だ,ナラ,ダ
。    補助記号,句点,,,,,。,,
EOS

# ipadicを指定して実行

$ echo "どの方法を用ゐても良い、用ふことを怠るくらゐなら。" | mecab -d /usr/local/lib/mecab/dic/ipadic/
どの    連体詞,*,*,*,*,*,どの,ドノ,ドノ
方法    名詞,一般,*,*,*,*,方法,ホウホウ,ホーホー
を    助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
用    名詞,一般,*,*,*,*,用,ヨウ,ヨー
ゐ    動詞,自立,*,*,一段,連用形,ゐる,ヰ,イ

て    助詞,接続助詞,*,*,*,*,て,テ,テ
も    助詞,係助詞,*,*,*,*,も,モ,モ
良い    形容詞,非自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,ヨイ
、    記号,読点,*,*,*,*,、,、,、
用    名詞,一般,*,*,*,*,用,ヨウ,ヨー
ふ    動詞,自立,*,*,五段・ラ行,体言接続特殊2,ふる,フ,フ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
を    助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
怠る    動詞,自立,*,*,五段・ラ行,基本形,怠る,オコタル,オコタル
くら    名詞,一般,*,*,*,*,くら,クラ,クラ
ゐ    動詞,自立,*,*,一段,連用形,ゐる,ヰ,イ
なら    助動詞,*,*,*,特殊・ダ,仮定形,だ,ナラ,ナラ
。    記号,句点,*,*,*,*,。,。,。
EOS


RMeCabは利用されている辞書を実行時に自動的に判定します。

(3) RMeCabUni をインストール


$ R

> install.packages ("RMeCabUni", repos = "http://rmecab.jp/R")

あるいは
> install.packages ("devtools")
> devtools::install_github("IshidaMotohiro/RMeCabUni")


(4) 利用例


# テストファイルを用意

$ echo "どの方法を用ゐても良い、用ふことを怠るくらゐなら。" > bungo.txt

Rを起動
> library(RMeCabUni)

# ipadicの場合(/Users/NAME/.mecabrcを削除した場合)

> x <- RMeCabText("/Users/ishidamotohiro/bungo.txt")
file = /Users/ishidamotohiro/bungo.txt
> x
[[1]]
 [1] "どの"   "連体詞" "*"      "*"      "*"      "*"      "*"
 [8] "どの"   "ドノ"   "ドノ"

[[2]]
 [1] "方法"     "名詞"     "一般"     "*"        "*"        "*"
 [7] "*"        "方法"     "ホウホウ" "ホーホー"

[[3]]
 [1] "を"     "助詞"   "格助詞" "一般"   "*"      "*"      "*"
 [8] "を"     "ヲ"     "ヲ"

[[4]]
 [1] "用"   "名詞" "一般" "*"    "*"    "*"    "*"    "用"   "ヨウ" "ヨー"

[[5]]
 [1] "ゐ"     "動詞"   "自立"   "*"      "*"      "一段"   "連用形"
 [8] "ゐる"   "ヰ"     "イ"

[[6]]
 [1] "て"       "助詞"     "接続助詞" "*"        "*"        "*"
 [7] "*"        "て"       "テ"       "テ"

[[7]]
 [1] "も"     "助詞"   "係助詞" "*"      "*"      "*"      "*"
 [8] "も"     "モ"     "モ"

[[8]]
 [1] "良い"             "形容詞"           "非自立"
 [4] "*"                "*"                "形容詞・アウオ段"
 [7] "基本形"           "良い"             "ヨイ"
[10] "ヨイ"

[[9]]
 [1] "、"   "記号" "読点" "*"    "*"    "*"    "*"    "、"   "、"   "、"

[[10]]
 [1] "用"   "名詞" "一般" "*"    "*"    "*"    "*"    "用"   "ヨウ" "ヨー"

[[11]]
 [1] "ふ"             "動詞"           "自立"           "*"
 [5] "*"              "五段・ラ行"     "体言接続特殊2" "ふる"
 [9] "フ"             "フ"

[[12]]
 [1] "こと"   "名詞"   "非自立" "一般"   "*"      "*"      "*"
 [8] "こと"   "コト"   "コト"

[[13]]
 [1] "を"     "助詞"   "格助詞" "一般"   "*"      "*"      "*"
 [8] "を"     "ヲ"     "ヲ"

[[14]]
 [1] "怠る"       "動詞"       "自立"       "*"          "*"
 [6] "五段・ラ行" "基本形"     "怠る"       "オコタル"   "オコタル"

[[15]]
 [1] "くら" "名詞" "一般" "*"    "*"    "*"    "*"    "くら" "クラ" "クラ"

[[16]]
 [1] "ゐ"     "動詞"   "自立"   "*"      "*"      "一段"   "連用形"
 [8] "ゐる"   "ヰ"     "イ"

[[17]]
 [1] "なら"     "助動詞"   "*"        "*"        "*"        "特殊・ダ"
 [7] "仮定形"   "だ"       "ナラ"     "ナラ"

[[18]]
 [1] "。"   "記号" "句点" "*"    "*"    "*"    "*"    "。"   "。"   "。"

#######################################
# unidicの場合

> x <- RMeCabText("/Users/ishidamotohiro/bungo.txt")
file = /Users/ishidamotohiro/bungo.txt
> x
[[1]]
 [1] "どの"   "連体詞" "*"      "*"      "*"      "*"      "*"
 [8] "ドノ"   "何の"   "どの"

[[2]]
 [1] "方法"     "名詞"     "普通名詞" "一般"     "*"        "*"
 [7] "*"        "ホウホウ" "方法"     "方法"

[[3]]
 [1] "を"     "助詞"   "格助詞" "*"      "*"      "*"      "*"
 [8] "ヲ"     "を"     "を"

[[4]]
 [1] "用ゐ"            "動詞"            "一般"
 [4] "*"               "*"               "文語上一段-ワ行"
 [7] "連用形-一般"     "モチイル"        "用いる"
[10] "用ゐ"

[[5]]
 [1] "て"       "助詞"     "接続助詞" "*"        "*"        "*"
 [7] "*"        "テ"       "て"       "て"

[[6]]
 [1] "も"     "助詞"   "係助詞" "*"      "*"      "*"      "*"
 [8] "モ"     "も"     "も"

[[7]]
 [1] "良い"        "形容詞"      "非自立可能"  "*"           "*"
 [6] "形容詞"      "連体形-一般" "ヨイ"        "良い"        "良い"

[[8]]
 [1] "、"       "補助記号" "読点"     "*"        "*"        "*"
 [7] "*"        "、"       "、"       "、"

[[9]]
 [1] "用"       "名詞"     "普通名詞" "一般"     "*"        "*"
 [7] "*"        "ヨウ"     "用"       "用"

[[10]]
 [1] "ふ"     "接尾辞" "名詞的" "一般"   "*"      "*"      "*"
 [8] "フ"     "婦"     "ふ"

[[11]]
 [1] "こと"     "名詞"     "普通名詞" "一般"     "*"        "*"
 [7] "*"        "コト"     "事"       "こと"

[[12]]
 [1] "を"     "助詞"   "格助詞" "*"      "*"      "*"      "*"
 [8] "ヲ"     "を"     "を"

[[13]]
 [1] "怠る"        "動詞"        "一般"        "*"           "*"
 [6] "五段-ラ行"   "終止形-一般" "オコタル"    "怠る"        "怠る"

[[14]]
 [1] "くらゐ" "助詞"   "副助詞" "*"      "*"      "*"      "*"
 [8] "クライ" "くらい" "くらゐ"

[[15]]
 [1] "なら"        "助動詞"      "*"           "*"           "*"
 [6] "助動詞-ダ"   "仮定形-一般" "ダ"          "だ"          "なら"

[[16]]
 [1] "。"       "補助記号" "句点"     "*"        "*"        "*"
 [7] "*"        "。"       "。"       "。"

ċ
dicrc.unidic
(1k)
Motohiro Ishida,
2014/09/23 17:44
ċ
mecabrc
(0k)
Motohiro Ishida,
2014/09/23 17:44
Comments