各チームの結果

各runの評価データ(test)に対する対話破綻検出性能は以下のとおりです。

評価尺度については、評価尺度 を参照してください。

CRFによるベースライン(baseline1、baseline2、baseline) と majorityベースライン、randomベースラインとの比較も行っています。

DCMのbaseline1はDCMのDBDC2の開発データを使用し、baseline2はDCMのDBDC2の開発データにrest1046とdevを加えて学習しています。

DITとIRSのbaselineは、それぞれのDBDC2の開発データのみを使用して学習しています。

これらのbaselineについては、こちらからプログラムがダウンロードできます。

ラベルの推定については、baseline1、baseline2、baseline は推定したラベルを出力します。

majorityは学習データ中の最頻ラベルを常に答え、randomは1/3の確率でランダムにラベルを決定します。

ラベルの確率分布の推定については、baseline1, baseline2, baseline は推定したラベルの確率を1 とし、他は0 としています。

majorityは学習データ中のラベル分布で最頻ラベルの分布、random は全て1/3 としています。

1. 分布距離系統による比較

DCM

DIT

IRS

各チームの結果(グラフ)pdfダウンロード

2. ラベル一致系統による比較

DCM

DIT

IRS

各チームの結果(グラフ)pdfダウンロード

3. 結果サマリ

3.1 分布距離系統

分布距離系統は数値が小さいほど性能がよい.

分布距離系統では,ラベル一致系統ほどのばらつきは見られず,一貫してNTTCS が高い性能を示している.

ただし,HCU,smap,RSL16BD,KIT もよい性能で追随しており,それほど大きな差が見られるわけではない.

3.2 ラベル一致系統

各尺度やシステムによって,最大性能を示すチームやrun は異なるものの,全体の傾向としてNTTCS(その中でもrun2)が最も安定して高い性能を示しているようである.

特に,一致率とF 値(X) については,3 システム全てでNTTCS が最高性能を発揮している.

T+X のF 値に絞れば,smap およびRSL16BDが最高性能を示している.

DBDC1に対するDBDC2の特徴として,RSL16BD,NTTCS のように破綻のパターンによる場合分けを行っているシステムが高い性能を示している点が挙げられる.

また完全に人手によるルールに基づくOKSAT も,最高点を示すことはないものの,肉薄する性能を示している点は興味深い.

4. 各チームの提出run

各チームが提出したrunデータを下記にてダウンロードいただけます.

データのフォーマットについては 提出フォーマット を参照ください.

4.1 ライセンス

本データはMITライセンスのもと,無償・無保障にて研究用・商用を問わず利用できます.

ただし,本データを利用して得た成果を学会等で発表する際には,可能な限り,以下の報告・論文を引用するようお願いします.

4.2 引用

○ 研究報告

対話破綻検出チャレンジ2

The Dialogue Breakdown Detection Challenge 2

東中 竜一郎,船越 孝太郎,稲葉 通将,荒瀬 由紀,角森 唯子

人工知能学会 言語・音声理解と対話処理研究会 第78回(第7回対話システムシンポジウム), pp.64-69, 2016-10-5

下記については,各システムに特に言及する場合は,可能な限り引用をお願いいたします.

○ 雑談対話APIサイト:

https://www.nttdocomo.co.jp/service/developer/smart_phone/analysis/chat/

○ System utterance generation by label propagation over association graph of words and utterance patterns for open-domain dialogue systems.

H. Tsukahara and K. Uchiumi.

Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation (PACLIC 2015), pp.323-331, (Oct. 2015).

○ 対話行為と話題推定によるラベル伝搬を利用した雑談生成方法の改良.

塚原裕史, 内海 慶.

第30回人工知能学会年次大会 (2016年6月).

○ Data-driven response generation in social media.

A. Ritter, C. Cherry, and W. B. Dolan.

Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2011), pp. 583-593, (Jan. 2011).

4.2 ダウンロード

こちらからダウンロード下さい.

各チームの結果(1,700kB)

ライセンス

5. お問い合わせ先

対話破綻検出チャレンジ事務局

dialoguebreakdowndetection-admin<at>googlegroups.com

(<at>を@に置き換えてください)