ChaPAS
Yet Another Japanese Predicate Argument Structure Analyzer
はじめに
ChaPASはJavaベースの日本語述語項構造解析器です。文章中に出現する述語とその項構造(文内)を同定します。[Watanabe+ 2010] の多言語意味役割付与モデルを日本語向けに改良したものです。
特徴
様々な言語資源を活用した解析
データを用意すれば解析モデルの構築が可能
CaboChaフォーマット(旧・新)の自動認識
並列構造解析機能
動作環境
Java 1.5 or later
CaboCha
(optional)
ダウンロード
chapas-0.742.tar.gz
(全ファイル, size: 1.13GB)
ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。
モデルファイルは、ipa品詞体系のデータで学習したものです。
確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。
- chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)
- chapas-resources.tar.bz2 (解析時に利用するリソースのみ, size: 721MB)
準備
生文を解析したい場合は、CaboChaをインストールして、パスを通しておく。
ChaPASのパッケージをダウンロードして、展開する。
$ tar -xvzf chapas-0.xx.tar.gz
使い方
生文を解析する場合(要CaboCha)
$ cat sample.txt | java -Xmx1g -jar chapas.jar -I RAW
* 0 10D 0/1 0.000000
政府 名詞,一般,*,*,*,*,政府,セイフ,セイフ O ID="1"
は 助詞,係助詞,*,*,*,*,は,ハ,ワ O
、 記号,読点,*,*,*,*,、,、,、 O
* 1 2P 0/0 1.311794
地震 名詞,一般,*,*,*,*,地震,ジシン,ジシン O
、 記号,読点,*,*,*,*,、,、,、 O
* 2 3P 0/0 0.473393
津波 名詞,一般,*,*,*,*,津波,ツナミ,ツナミ O
、 記号,読点,*,*,*,*,、,、,、 O
* 3 4D 0/2 1.629020
豪雨 名詞,一般,*,*,*,*,豪雨,ゴウウ,ゴーウ O ID="2"
など 助詞,副助詞,*,*,*,*,など,ナド,ナド O
の 助詞,連体化,*,*,*,*,の,ノ,ノ O
* 4 6D 0/1 1.566661
影響 名詞,サ変接続,*,*,*,*,影響,エイキョウ,エイキョー O type="noun" ga="2"
により 助詞,格助詞,連語,*,*,*,により,ニヨリ,ニヨリ O
* 5 6D 0/1 1.841055
被害 名詞,一般,*,*,*,*,被害,ヒガイ,ヒガイ O ID="3"
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O
* 6 7D 0/1 1.466463
受け 動詞,自立,*,*,一段,連用形,受ける,ウケ,ウケ O type="pred" o="3"
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O
* 7 8D 0/1 2.163814
地域 名詞,一般,*,*,*,*,地域,チイキ,チイキ O ID="4"
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O
* 8 9D 1/1 1.096540
支援 名詞,サ変接続,*,*,*,*,支援,シエン,シエン O
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル O type="pred" ga="1" o="4"
* 9 10D 0/1 0.000000
計画 名詞,サ変接続,*,*,*,*,計画,ケイカク,ケイカク O type="noun" ga="1" ID="5"
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O
* 10 -1D 1/2 0.000000
発表 名詞,サ変接続,*,*,*,*,発表,ハッピョウ,ハッピョー O
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ O type="pred" ga="1" o="5"
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O
。 記号,句点,*,*,*,*,。,。,。 O
EOS
CaboCha解析済データを入力として、述語項構造解析をおこなう場合
$ cat [cabocha-parsed-file] | java -Xmx1g -jar chapas.jar
注:CaboChaの解析では以下のように -n1 オプションを付けて固有表現解析もおこなってください。
$ cat [raw-text] | cabocha -f1 -n1 > [cabocha-parsed-file]
ディレクトリ内のファイルをまとめて解析したい場合
$ java -Xmx1g -jar chapas.jar -ted [cabocha-parsed-files-dir] -od [output-file-dir]
モデルの学習
一つのファイルを学習データとして用いる場合
$ java -Xmx8g -jar chapas.jar -t [training-data]
ディレクトリを指定する場合
$ java -Xmx8g -jar chapas.jar -td [training-data-dir]
メモリが不足する場合は、-Xmxオプションを適切な値に設定してください。
更新履歴
2014/01/07 ChaPAS-0.742 リリース(RAWモードでのCaboCha呼び出し時に-n1オプションを使用)
2013/11/29 ChaPAS-0.741 リリース(学習部分のバグfix)
2013/11/28 ChaPAS-0.74 リリース
クレジット
ChaPASは、京都大学格フレーム(Ver 1.0)および(独)情報通信研究機構MASTARプロジェクトの技術を利用しています。
参考文献
- Yotaro Watanabe, Masayuki Asahara and Yuji Matsumoto. A Structured Model for Joint Learning of Argument Roles and Predicate Senses. In Proceedings of the ACL 2010 Conference Short Papers, pages 98-102, Uppsala, Sweden, 11-16 July 2010. [paper]
- 渡邉陽太郎, 浅原正幸, 松本裕治. 述語語義と意味役割の結合学習のための構造予測モデル. 人工知能学会論文誌, Vol.25, No.2, pp.252-261, January 2010. [paper]