シチュエーショントラック

シチュエーショントラックのシステム仕様・評価について

シチュエーショントラックでは,オープンな雑談とは異なり,設定された状況の中で状況にあった人らしい対話を行う能力を競います.

今回,「謝罪をする」というシチュエーションを設定しました.参加者は,ユーザに対して,人間関係を考慮しながら,謝罪を行います.謝罪の言葉を述べるだけではなく,ユーザーとの会話の開始,事情の説明,そして許してもらえるよう提案などを含む「謝罪」を行う対話システムを作成します.マルチモーダル情報を効果的に利用することが求められます.

今回用いるシチュエーションについては,以下のシチュエーションを参照ください.

予選では,クラウドワーカーによる評価を実施します.本選では,オーガナイザが指定する対話者がそのシステムと会話をし,ライブコンペの参加者全員が評価します.

システム仕様・評価基準は本ページに則るものとします.(オープントラックはこちらのページをご覧ください)

満たすべきシステムの仕様

評価の観点から,システムは以下の仕様を満たすように作成してください.

後述のシチュエーションで行われる会話(マルチモーダル:音声出力及びアバターのコントロールを含む)であること.システムの制限から,ユーザのマルチモーダル情報はシステムに入力されませんのでご注意ください(次年度以降の導入を検討しています).

4分以上システム発話が継続するようにしてください.4分経ったら,対話は終了することとします.

シチュエーション

  • システム 名前: 清水シズカ(女), 年齢:20歳, 職業:大学2年生

  • ユーザ 名前: 湯川ユウキ(男/女), 年齢:20歳, 職業:大学2年生

  • 話者の関係 : 同じ大学のゼミの友人同士

  • 場所・時間: 大学のカフェ当日の授業終了後

  • 状況・話題: シズカ(システム)はユウキ(ユーザ)から借りていた本を紛失し,返却ができなくなった.事情を説明し謝罪をする.

背景

シズカ(システム)と友人のユウキ(ユーザ)は同じ大学のゼミの友人同士である.シズカはユウキに本を借りていた.それはかなり高価な専門書で,ユウキが2週間もの間,辛いアルバイトをしてやっと買ったものだと知っていたが,自分も興味のある内容だったので無理を言って借りた本だ.ある日電車の網棚にカバンを忘れてしまったが,そのカバンには借りていた本が入っていた.鉄道会社には問い合わせたし,警察にも連絡したが,カバンはまだ見つかっていない.もちろん弁償しようと考えているが,まずはユウキにきちんと謝らないといけない.こちらの誠意を示すために,メールや電話ではなく直接会って謝ろうと思う.そこでシズカはメールで「ちょっと話があるんだけど」とユウキを大学内のカフェに呼び出すことにした.先にカフェで待っていると,入口からユウキが店に入って来るのが見えた.途端に思い出されるのは本を買うために毎日アルバイトをしていたユウキの,ヘトヘトに疲れ切った姿だ.はたしてユウキは許してくれるだろうか.

インストラクション

  • システム側

システムはシズカという名前の女性です.ユーザ側は男性の場合も女性の場合もありますが,いずれも名前はユウキです.開発者はシステムが相手に合わせた対話ができるようにしてください.待ち合わせ場所に現れたユウキが,「話ってなに?」と話しかけてきます.これに応答するところから開始し,本を紛失したことについて謝罪をしてください.ユウキに許してもらうことが目的です.シズカとユウキは,互いに名前を敬称(君,さん等)無しで呼び合うものとします.

  • ユーザー側

ユーザはユウキという名前です.自身の性別に合わせて話をしてください.「話ってなに?」と話しかけて対話をスタートさせてください.とても大切な本をシズカに貸していますが,シズカと会話を始める際には,要件が不明であると考えて「話ってなに?」と話しかけます.すぐには謝罪を受け入れないようにしてください.謝罪を受け入れた後も,所定の時間,会話を継続してください.シズカとユウキは,互いに名前を敬称(君,さん等)無しで呼び合うものとします.

評価方法・基準

対話システムは,「どれくらいシチュエーションに適しており,かつ,人らしい会話か」を評価軸として5段階で総合的に評価されます.「シチュエーションに適している」とは,所定の状況に鑑み「人らしい会話」であると直感的に思えることです.「人らしい会話」とは,具体的には以下のような特徴を含みます.

  • 言いにくいことを言わなければならない場合は,相手との社会的な関係性を考慮して,相手に失礼にならないように内容を伝えられること.

  • 適当な「間」や「あいづち」,「フィラー」,「言い淀み」などが用いられていること.

  • 表情などの動きが発話と連動して用いられていること.

  • 会話の流れに沿って,必要に応じて話題を遷移できること.

これらは,「シチュエーションに適しており,かつ,人らしい会話」というもののイメージを喚起する参考であり,すべてを満たす必要があるということではありません.

評価の流れ

評価者には,対話の相手がシステムであることはあらかじめ通知されます.事務局が用意する Webアプリ上で評価者が対話開始の操作を行い,それをトリガーとしてシステムに対話開始が通知されることにより対話が開始されます.対話はユーザの発話から始まり,システムとユーザは交互に発話するものとします.4分経過した時点で対話は終了することとします.対話システムは上記の評価方法・基準に基づき評価されます.

予選では,クラウドソーシングを用いて,50人程度のワーカーにより主観評価されます(人数は変更する可能性があります).予選で高い評価を得たシステムが,ライブイベントに参加できます.ライブイベントではオーガナイザが指定する対話者がシステムと対話をし,その状況をシンポジウムの参加者全員でそれぞれのトラックの基準により鑑賞・評価します.なお,予選の前に疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.本スクリーニングを通過しなかったシステムはその時点で評価の対象外となります.