オープントラック
オープントラックのシステム仕様・評価について
任意の話題について(オープンドメインで)ユーザと雑談を行う能力を競います.
今回用いる評価基準については 評価基準 を参照ください.予選・本選は従来通り実施します.システム仕様・評価基準は本ページに則るものとします.シチュエーショントラックは こちらのページ をご覧ください.
システムとユーザはマルチモーダル対話を行います.システムと評価者は一度のみ対話するものとし,対話時間は4分とします.4分を過ぎると対話は打ち切られます.
満たすべきシステムの仕様
評価の観点から,システムは以下の仕様を満たすように作成してください.
ユーザの音声認識結果に対して,マルチモーダル(音声出力及びアバターのコントロール含む)情報を用いて応答するシステムであること.システムの制限から,ユーザのマルチモーダル情報はシステムに入力されませんのでご注意ください(次年度以降の導入を検討しています).
4分以上システム発話が継続するようにしてください.4分経ったら,対話は終了することとします.
評価方法・基準
マルチモーダル化を踏まえた評価を行います.具体的には,ライブコンペ4の基準である「発話内容」に加えて,表情などを踏まえた「話し方」の基準を追加しました.
評価者は,対話の前に,オーガナイザが準備する所定の名詞リスト(Wikipediaの見出し語から作成)から話題として名詞を2つ選択し,それらを話したい話題として対話します.また,対話中に一つの話題からもう一つの話題に切り替えるものとします.自然,かつ,ユーザが話したい話題について情報交換が可能なシステムがよいと考え,以下の3つの観点のそれぞれについて,5段階評価を行います.これらの平均を発話内容の評価の得点とします.
発話内容の自然性:発話内容が自然かどうか
話題追随:システムはユーザが選択した話題に関して適切に応答できたかどうか
話題提供:システムはユーザが選択した話題に関して新たな情報を提供できたかどうか
これらの3つの観点は,「また話したくなる」ための十分条件ではないかもしれませんが,オープンドメインでの雑談という目標を踏まえた場合の必要条件であるとオーガナイザは考えています.なお,名詞リストは事前に公開いたしません.また,対話者が選んだ名詞についてもシステムに事前に通知されませんのでご了承ください.
評価者は,表情などのマルチモーダル情報を踏まえて,話し方が自然だったかについて,5段階評価を行います.これを話し方の評価の得点とします.
話し方の自然性:音声やジェスチャー,表情などで示される話し方が自然かどうか
この評価では,話し方が発話内容に即しているか,および,話し方自体が自然かに基づき,総合的に行われるとします.
最終的に,発話内容の評価の得点と話し方の評価の得点の平均を,最終的な評価値とします.発話内容と話し方の評価の重みは同じとなっていますので,マルチモーダル情報の効果的な利用を促進するような評価尺度にしています.
評価の流れ
評価者には,対話の相手がシステムであることはあらかじめ通知されます.事務局が用意する Webアプリ上で評価者が対話開始の操作を行い,それをトリガーとしてシステムに対話開始が通知されることにより対話が開始されます.対話はシステム発話から始まり,4分経過した時点で対話は終了することとします.対話システムは上記の評価方法・基準に基づき評価されます.
予選では,クラウドソーシングを用いて,50人程度のワーカーにより主観評価されます(ワーカーの人数は変更する可能性があります).予選で高い評価を得たシステムが,ライブイベントに参加できます.ライブイベントではオーガナイザが指定する対話者がシステムと対話をし,その状況をシンポジウムの参加者全員でそれぞれのトラックの基準により鑑賞・評価します.また,予選の前に疎通に問題ないか,最低限の対話ができるかなどを確認するためのスクリーニングを,オーガナイザと数名のクラウドワーカーにより実施します.本スクリーニングを通過しなかったシステムはその時点で評価の対象外となります.