雑談対話コーパス

1. 公開の目的

本コーパスはProject Next NLP 対話タスクで収集したものです.対話タスクは,対話の破綻(文脈上不適当なシステムの応答)を検出する技術(対話破綻検出)に焦点を絞り,対話システムのエラーを共同で分析することを目的としたタスクです.本タスクではNTTドコモの雑談対話APIを用いて,1,146対話の人・システムの雑談対話を収集し,システム発話に対して対話破綻のアノテーションとコメント付けを行いました.

人間同士の雑談対話コーパスはいくつかありますが,本コーパスは日本初の人・システムの雑談対話コーパスです.対話破綻検出技術だけでなく,様々な対話技術の発展に寄与することを目的として,本コーパスを公開します.本コーパスは,様々な雑談対話の分析に有用だと考えています.人間同士の雑談ではなかなか起こりえない破綻を含みますので,破綻発生時のユーザの反応の分析,破綻からの復帰の分析など,対話における希少な現象の分析も可能です.

2. 雑談対話コーパスの内容

本コーパスはNTTドコモが一般公開している雑談対話APIを用いた雑談対話システムとユーザが21発話からなるやりとりを行った対話データで,116名の話者による1,146対話が収録されています.

各システム発話に対して,対話破綻(対話を継続することが困難)かどうかのアノテーションが3段階で付与されています.100対話については24人のアノテータによって,残りの1,046 対話については数名のアノテータによるアノテーションが付与されています.また,一部のアノテーションについてはなぜ破綻としたかのコメントが付けられています.話者,アノテータの属性情報(性別,年代)も付属しています.

3. 雑談対話コーパスのライセンス

本データはMITライセンスのもと,無償・無保障にて研究用・商用を問わず利用できます.ただし,本データを利用して得た成果を学会等で発表する際には,可能な限り,本データについての以下の報告・論文を引用するとともに,NTTドコモの雑談対話APIへの参照をお願いします.詳細は本コーパスに同梱されているライセンスをご覧ください.

○ 研究報告

Project Next NLP対話タスクにおける雑談対話データの収集と対話破綻アノテーション

Chat dialogue collection and dialogue breakdown annotation in the dialogue task of Project Next NLP

東中 竜一郎,船越 孝太郎

人工知能学会 言語・音声理解と対話処理研究会 第72回, pp.45-50, 2014-12-15

○ 雑談対話APIサイト:

https://www.nttdocomo.co.jp/service/developer/smart_phone/analysis/chat/

4. ダウンロード

こちらからダウンロード下さい.(約1.8M)

5. お問い合わせ先

東中竜一郎(NTT)

higashinaka.ryuichiro<at>lab.ntt.co.jp

船越孝太郎(HRI-JP)

funakoshi<at>jp.honda-ri.com

(<at>を@に置き換えてください)