NAISTテキストコーパス

概要

京都テキストコーパスで利用されている毎日新聞95年1月1日から17日まで の全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して,述語と表層格(ガ格,ヲ格,ニ格)の関係,事態性名詞と表層格(ガ格, ヲ格,ニ格)の関係,事態性名詞の名詞クラス,名詞句間の共参照関係,指示連体詞・代名詞の照応関係の情報を付与したコーパスです.

ニュース

  • 2013-06-25 (Tue) ライセンスを修正 BSD ライセンスと明記しました。
  • 2010-08-23 (Mon) タグ付きデータを京都大学テキストコーパスver.4.0をもとに作成するように変更しました.指示連体詞・代名詞の照応関係,事態性名詞の名詞意味クラスのタグを追加しました.
  • 2007-08-05 (Sun) 同一箇所に複数のタグが付く場合に順序がおかしく箇所があったので修正しました.
  • 2007-07-27 (Fri) タグが一部おかしくなっていた箇所を修正しました.
  • 2006-11-20 (Mon) xmlファイル中のタグが交差していた箇所を修正.
  • 2006-10-06 (Fri) 照応・共参照タグ付きコーパスを公開しました.
  • 2006-10-17 (Tue) コーパスへの変換手順をREADMEに追記しました.

 ダウンロード

NAIST テキストコーパスダウンロードページからダウンロードしてください.

 コーパスへの変換手順

配布するのは照応・共参照関係などのタグ情報のみです.コーパス本来の形に変換するには

  • 毎日新聞95年版CD-ROM
  • Perl 5.8.6以上
  • 京都大学テキストコーパスver.4.0

が必要です.変換手順は以下の通りです.

  • 毎日新聞95年版CD-ROMをマウントする.
  • 京都大学テキストコーパス4.0のデータを作成する.
 % tar xvfz KyotoCorpus4.0.tar.gz
 % KyotoCorpus4.0/auto_conv -d /mnt/cdrom
 (/mnt/cdrom は,CD-ROMのマウントポイントに変更してください)
  • NAISTテキストコーパスのデータを京都大学テキストコーパスのフォーマットで作成する.
 % tar xvfz NTC_1.5.tgz
 % NTC_1.5/auto_conv -k -d KyotoCorpus4.0/dat/syn/
 (NTC_1.5/dat/ntc/knp/ 以下に1ファイル1記事のデータが2,927ファイル作成されます)
  • NAISTテキストコーパスのデータをCaboCha?の出力フォーマットで作成する.
 % tar xvfz NTC_1.5.tgz
 % NTC_1.5/auto_conv -c -d KyotoCorpus4.0/dat/syn/
 (NTC_1.5/dat/ntc/ipa/ 以下に1ファイル1記事のデータが2,927ファイル作成されます) 

作成されるタグ付きデータの詳細についてはNTC_1.5/READMEをご参照ください.

上記変換方法はUNIXシステムでの変換を想定しています.

 参考文献

  • 飯田龍, 小町守, 井之上直也, 乾健太郎, 松本裕治. 述語項構造と照応関係のアノテーション: NAISTテキストコーパス構築の経験から. 自然言語処理, Vol.17, No.2, pp.25-50, April 2010.
  • 飯田龍, 小町守, 乾健太郎, 松本裕治. 名詞化された事態表現への意味的注釈付け. 言語処理学会第14回年次大会, pp.277-280. 2008.
  • Ryu Iida, Mamoru Komachi, Kentaro Inui and Yuji Matsumoto. Annotating a Japanese Text Corpus with Predicate-Argument and Coreference Relations. ACL Workshop `Linguistic Annotation Workshop', pp.132-139. 2007.
  • 飯田龍, 小町守, 乾健太郎, 松本裕治. 日本語書き言葉を対象とした述語項構造と共参照関係のアノテーション: NAISTテキストコーパス開発の経験から. 言語処理学会第13回年次大会, 2007.
  • 飯田龍, 小町守, 乾健太郎, 松本裕治. NAISTテキストコーパス: 述語項構造と共参照関係のアノテーション. 情報処理学会自然言語処理研究会予稿集, NL-177-10. 2007.

 連絡先

要望,コメントなどはryu.iida@nict.go.jpにお願いします.