ChaPAS

Yet Another Japanese Predicate Argument Structure Analyzer

はじめに

ChaPASはJavaベースの日本語述語項構造解析器です。文章中に出現する述語とその項構造(文内)を同定します。[Watanabe+ 2010] の多言語意味役割付与モデルを日本語向けに改良したものです。

特徴

  • 様々な言語資源を活用した解析
  • データを用意すれば解析モデルの構築が可能
  • CaboChaフォーマット(旧・新)の自動認識
  • 並列構造解析機能

動作環境

  • Java 1.5 or later
  • CaboCha (optional)

ダウンロード

ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。

モデルファイルは、ipa品詞体系のデータで学習したものです。

確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。

準備

  • 生文を解析したい場合は、CaboChaをインストールして、パスを通しておく。
  • ChaPASのパッケージをダウンロードして、展開する。
$ tar -xvzf chapas-0.xx.tar.gz

使い方

  • 生文を解析する場合(要CaboCha)
$ cat sample.txt | java -Xmx1g -jar chapas.jar -I RAW

* 0 10D 0/1 0.000000

政府 名詞,一般,*,*,*,*,政府,セイフ,セイフ O ID="1"

は 助詞,係助詞,*,*,*,*,は,ハ,ワ O

、 記号,読点,*,*,*,*,、,、,、 O

* 1 2P 0/0 1.311794

地震 名詞,一般,*,*,*,*,地震,ジシン,ジシン O

、 記号,読点,*,*,*,*,、,、,、 O

* 2 3P 0/0 0.473393

津波 名詞,一般,*,*,*,*,津波,ツナミ,ツナミ O

、 記号,読点,*,*,*,*,、,、,、 O

* 3 4D 0/2 1.629020

豪雨 名詞,一般,*,*,*,*,豪雨,ゴウウ,ゴーウ O ID="2"

など 助詞,副助詞,*,*,*,*,など,ナド,ナド O

の 助詞,連体化,*,*,*,*,の,ノ,ノ O

* 4 6D 0/1 1.566661

影響 名詞,サ変接続,*,*,*,*,影響,エイキョウ,エイキョー O type="noun" ga="2"

により 助詞,格助詞,連語,*,*,*,により,ニヨリ,ニヨリ O

* 5 6D 0/1 1.841055

被害 名詞,一般,*,*,*,*,被害,ヒガイ,ヒガイ O ID="3"

を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O

* 6 7D 0/1 1.466463

受け 動詞,自立,*,*,一段,連用形,受ける,ウケ,ウケ O type="pred" o="3"

た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O

* 7 8D 0/1 2.163814

地域 名詞,一般,*,*,*,*,地域,チイキ,チイキ O ID="4"

を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O

* 8 9D 1/1 1.096540

支援 名詞,サ変接続,*,*,*,*,支援,シエン,シエン O

する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル O type="pred" ga="1" o="4"

* 9 10D 0/1 0.000000

計画 名詞,サ変接続,*,*,*,*,計画,ケイカク,ケイカク O type="noun" ga="1" ID="5"

を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ O

* 10 -1D 1/2 0.000000

発表 名詞,サ変接続,*,*,*,*,発表,ハッピョウ,ハッピョー O

し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ O type="pred" ga="1" o="5"

た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ O

。 記号,句点,*,*,*,*,。,。,。 O

EOS

  • CaboCha解析済データを入力として、述語項構造解析をおこなう場合

  • $ cat [cabocha-parsed-file] | java -Xmx1g -jar chapas.jar
注:CaboChaの解析では以下のように -n1 オプションを付けて固有表現解析もおこなってください。
$ cat [raw-text] | cabocha -f1 -n1 > [cabocha-parsed-file]
  • ディレクトリ内のファイルをまとめて解析したい場合
$ java -Xmx1g -jar chapas.jar -ted [cabocha-parsed-files-dir] -od [output-file-dir]

モデルの学習

  • 一つのファイルを学習データとして用いる場合
$ java -Xmx8g -jar chapas.jar -t [training-data]
  • ディレクトリを指定する場合
$ java -Xmx8g -jar chapas.jar -td [training-data-dir]
メモリが不足する場合は、-Xmxオプションを適切な値に設定してください。

更新履歴

  • 2014/01/07 ChaPAS-0.742 リリース(RAWモードでのCaboCha呼び出し時に-n1オプションを使用)
  • 2013/11/29 ChaPAS-0.741 リリース(学習部分のバグfix)
  • 2013/11/28 ChaPAS-0.74 リリース

クレジット

ChaPASは、京都大学格フレーム(Ver 1.0)および(独)情報通信研究機構MASTARプロジェクトの技術を利用しています。

参考文献

  • Yotaro Watanabe, Masayuki Asahara and Yuji Matsumoto. A Structured Model for Joint Learning of Argument Roles and Predicate Senses. In Proceedings of the ACL 2010 Conference Short Papers, pages 98-102, Uppsala, Sweden, 11-16 July 2010. [paper]
  • 渡邉陽太郎, 浅原正幸, 松本裕治. 述語語義と意味役割の結合学習のための構造予測モデル. 人工知能学会論文誌, Vol.25, No.2, pp.252-261, January 2010. [paper]