開発データ・評価データ
対話破綻検出チャレンジ2において収集した開発データ・評価データを公開いたします.
データ収集およびアノテーションの方法は対話破綻検出チャレンジと同じですが,より汎用的な対話破綻検出技術の実現のため,本チャレンジでは以下の3つの対話システムを用いて対話データを収集しました.
DCM:NTT ドコモが一般公開している雑談対話APIを用いた雑談対話システム
DIT:デンソーアイティーラボラトリ提供の雑談対話システム
IRS:オーガナイザが準備した,IR-STATUSに準拠した用例ベースの雑談対話システム
対話データ収集に際しては,これらのシステムと対話ができるウェブサイトを構築し,対話参加者にウェブブラウザでサイトにアクセス・対話してもらって収集ました.
収集された対話数は,各システムにつき100対話で,全部で300 対話です.
各対話はシステムのプロンプトで始まり,その後ユーザとシステムが交互にそれぞれ10 回発言したところで強制的に終了するため,一対話は21発話からなります.
収集された対話データへのアノテーションについては,
○ :破綻ではない.当該システム発話のあと対話を問題無く継続できる.
△:破綻と言い切れないが,違和感を感じる発話.当該システム発話のあと対話をスムーズに継続することが困難.
×:あきらかにおかしいと思う発話.破綻当該システム発話のあと対話を継続することが困難.
の3種類のラベルを,システム発話毎に30名のアノテータが付与しています.
なお,○,△,×の記号は,配布データ中ではそれぞれO,T (Triangle の意),X のアルファベットにより表現されています.
本チャレンジでは,DCM/DIT/IRS による対話の半分(50 対話)を学習用(開発データ)として配布し,残りの50対話を評価用(評価データ)として使用しました.
ライセンス
本データはMITライセンスのもと,無償・無保障にて研究用・商用を問わず利用できます.
ただし,本データを利用して得た成果を学会等で発表する際には,可能な限り,以下の報告・論文を引用するようお願いいたします.
研究報告
東中 竜一郎,船越 孝太郎,稲葉 通将, 荒瀬 由紀, 角森 唯子.対話破綻検出チャレンジ2.人工知能学会 言語・音声理解と対話処理研究会 第78回(第7回対話システムシンポジウム), pp.64-69, 2016-10-5.
下記については,各システムに特に言及する場合は,可能な限り引用をお願いいたします.
DCM
-NTT Docomo 雑談対話API: https://www.nttdocomo.co.jp/service/developer/smart_phone/analysis/chat/
DIT
-H. Tsukahara and K. Uchiumi. System utterance generation by label propagation over association graph of words and utterance patterns for open-domain dialogue systems. Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015), pp.323-331, (Oct. 2015).
-塚原裕史, 内海 慶. 対話行為と話題推定によるラベル伝搬を利用した雑談生成方法の改良. 第30回人工知能学会年次大会 (2016年6月).
IRS
-A. Ritter, C. Cherry, and W. B. Dolan. Data-driven response generation in social media. Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2011), pp. 583-593, (Jan. 2011).
ダウンロード
開発データ
評価データ
(データの形式については,データフォーマットをご参照ください.)
ライセンス
データを人間が見やすい形式で表示するスクリプト(Python)も公開しています.
---出力例---
python show_dial.py 1408001670log.json
dialogue-id : 1408001670
speaker-id : 04_05
group-id : subset_f
S:こんにちは!気軽に声かけてね。 O O
U:はろはろ
S:はろー O O
U:うん
...
---
謝辞
本データは人工知能学会から助成金を頂いて収集しました.
対話データ収集において,NTT ドコモの雑談対話API を使わせていただきました.またDITシステムは,株式会社デンソーアイティーラボラトリの塚原裕史様,内海慶様にご提供いただきました.感謝いたします.
お問い合わせ先
対話破綻検出チャレンジ事務局
dialoguebreakdowndetection-admin<at>googlegroups.com
(<at>を@に置き換えてください)