Q & A

レギュレーションについて

Q:提供されている観光地データベースのCSVファイルは改変してもよいか?
A:
自動化が可能なレベルで(本番で未知の観光地情報が与えられたとしても対応できるように),改変するのは可能です.

Q:用意されたセンサ以外を使うことは可能か?
A:レギュレーションとして,認識プログラムの方は,参加者が独自に準備してもよいことにしていますので,カメラ・マイク以外のセンサを使用しても結構です.ただし,予選,本選会場には,独自で用意したものは持ち込んで頂く必要があります.

Q:会話が5分経つと自動的に終了するようにとありますが,ロボットに「5分経ったのでお帰りください」みたいなことを言わせるのか?
A:
対話開始後5分30秒(30秒は開始処理を手間取った場合などのための余裕)経過したら,参加者のプログラムでロボットが対話を終了する振る舞いを行うようにします(「ご案内の途中で申し訳ございませんが,お時間になりましたので,ご案内を終了したいと思います.」とロボットに言わせるなど).(ロボットシステムでカウントしている時間が5分30秒経過したことを検出するサンプルプログラムを実行委員の方で用意して配布予定)

Q:本番にインターネットにアクセスして観光地情報や乗換案内を検索してもよいか?
A:
本番で未知の観光地情報が与えられたとしても対応できるように開発していれば,インターネットにアクセスして観光地情報や乗換案内を検索することは可能です. 配布した音声認識システムを使用するために必要なインターネット接続環境(モバイルWifiを想定)は主催者側で準備します.

Q:本番で目的地の周辺施設検索をしてもよいか?
A:
本番で未知施設に対応できるという条件を満たすように開発していれば,検索してもよいとします.

Q:推薦は定休日を考慮する必要があるか?例えば非推薦候補に対して「そこは今日はやっていません」という否定ができてしまうが,それはよいのか?
A:
体験者には,”今日これから行く場所を決める”という体でなく,”休暇で訪れるとした場合に行く場所を決める”という体で話してもらうことにします.そのため,本番当日が休館しているかどうかについて考慮する必要はありません.

Q:天候によって対応を変える必要はあるか?(雨の時は屋内施設をお勧めする等)
A:
上記と同様,本番当日の天候について考慮する必要はありません.

Q:システムがお勧めの場所を決めるタイミングは、対話中でもよいのか?
A:
お勧めの場所は,対話開始前に決められます.

Q:システムのお勧めの場所はどのように決定されるのか?
A:
体験者が選んだ2箇所の観光地のうち,1つがお勧めの観光地としてランダムに決定されます.

Q:体験者が選んだ2箇所の観光地情報はどのようにして受け取るのか?
A:
体験者が選んだ2箇所と,その中からランダムに選ばれたお勧めの場所は,ロボットシステムのあるサーバー上に記録され,参加者のプログラムは,対話開始直前に,そのサーバーにアクセスして,これらの情報を得てください.そのためのサンプルプログラムは,参加者に別途配布致します.

Q:対話時にディスプレイには体験者が選んだ2箇所の観光地画像が表示されるが,画像が左右どちらに表示されるかはロボット側のシステムは把握できるか?
A:
対話開始前に,参加者が開発したプログラム上で,体験者が選んだ2箇所の観光地ID(Json形式)をサーバから取得することになっていますが,取得したJson内のリストの1つ目のIDの観光地が画面左に,2つ目のIDの観光地が画面右に表示されます.

Q:コンペでシステムの評価を実施している当日にシステムを改良するのはOKか?体験者の様子を見ていて,ロボットの発話を修正した方がよくなったので修正するとか,ロボットの動き方を変えたくなったので,評価実施途中で動きのプログラムを修正するなどはOKか?
A:
システムの致命的なバグ(プログラムが落ちてしまう)等を修正するのはOKですが,それ以外の改良は不可とします.ロボットの応答がうまくいかずに対話が続かないので,応答部分のプログラムを修正するなども不可とします.

体験者について

Q:子供が興味を持って,親を引っ張ってくることが多いように思う.親子連れをいれるかどうか決めておいた方がトラブルにならないのではないか?入れるなら,子供を静かにさせる人が中にいるかなと思われる.また,体験者がhead setをしないと,待合席で「お静かに,しー」というと,音声認識に影響がでそう.子ども連れはどうするのか?
A:
子供を静かに待たせておくことが可能であれば(会場入り口でスタッフが確認します) ,体験してもらいます.

Q:家族連れの扱いをどうするか?小さいお子さんは同席させるのか?
A:
体験は1人ずつ行うこととします.子供を静かに待たせておくことが可能であれば(会場入り口でスタッフが確認します) ,体験してもらいます.

Q:未成年の参加について,幼稚園児・小学生などの参加を想定しておいたほうが良いか?
A:
小学生以下は体験が難しいと想定されるので,中学生以上が体験できるようにします.中学生以上は想定してください.

Q:一度に何人の人がお客さんになるのか?(3人家族で来たら,3人を相手にするのか?)
A:
一度に複数人連れが訪れても,体験は1名ずつ行ってもらいます.

Q:(上記の質問に関連して)同じ家族が連続で(例えば,母→子供1→子供2の順に)体験することがるということか?その場合,前の会話が影響を与えるのではないか?例えば,「さっきお母さんにはこれ勧めてたよね?」みたいな会話の懸念が考えられないか?(実環境では家族はわざわざ別に面談しない)
A:
同じ家族が連続で体験することも想定されます.ただし,各体験者の対話は前の内容とは独立であることとします.各人の対話はそれぞれ独立である(直前の体験者が友人だからといって,直前の体験者がアンドロイドと対話した内容が,次の体験者に引き継がれることはない)ことをスタッフから体験者に伝えます.

Q:ロボットと体験者の対話の様子は他の人から見える状況か?他人から見られている状況では話しにくさを感じる人もいるのではないか?また,体験中に答えに困ったときに,他の知り合いに視線を向けたりすることも想定しないといけなくなるのではないか?実験デザイン的に,被験者と外部の人が隔離されていることが望ましい.
A:
体験者は他の人から見られていることを分かった状態で対話することになります.対話しにくさを感じる人もいる可能性がありますが,実際の店舗でも同様の状況です.本コンペでは,実証的に対話システムを試すことを想定しているので,体験者が待機者から見られているとう状況で行います.参加者はその状況を想定してください.

体験者による評価方法について

Q:一人の体験者は,複数チームと会話する可能性はあるか?何チームくらいのロボットを相手にするのか?
A:
一人の体験者が,複数回同じチームのロボットと対話することがないように制限します.複数のチームと会話することは制限しませんので,体験者によっては複数チームと会話する可能性もあります.

Q:体験者が複数チームのロボットと対話する場合,2チーム目以降の対話でも,最初に選ぶ観光地候補は同じか?
A:
その時に体験者が行きたいと思う観光地候補を挙げてもらいますので,体験者によっては,変える人もいると考えられます.こちらからは,2チーム目以降も,1チーム目の際に選んだ候補地と同じ候補地を選ぶようにと制限はしないです.

Q:参加チームによる体験者の勧誘があると,サクラがありうるように感じるのですが大丈夫か?
A:
参加チームによる体験者の勧誘はなしにします.

Q:満足度といったアンケート結果だけではなく,ランダムで選ばれたシステムが薦める観光地が選ばれたかどうかが評価の対象ですが,対話時間も5分と短いので,参加者のもともとの好みの偏りなどの影響があるのではないか?
A:
ご指摘の通り,体験者によってはその可能性があります.その対策として,体験者評価数をある程度増やすことで,元々の好みの偏りの影響が小さくなるようにします.

Q:体験者が観光地2箇所を選ぶ際に見る情報はどの程度のものか?提供される観光地情報に記載された情報と同等の情報を事前に確認しているのか?
A:
体験者は,6箇所の観光地名とそれぞれの写真1つのみを見て,その中から2箇所を選びます.

Q:体験希望者にはどこまで説明するのか?ロボットがお勧めする観光地と,体験者が行くことを決めた観光地が一致すると評価が高いというようなことまで説明するのか?
A:
その点は説明しません.体験希望者にはスタッフから,希望する観光地を2つ選んでもらって,ロボットと相談しながら行く観光地を決めてください,対話後に印象評価アンケートに答えてください,という程度の説明を行います.

運営について

Q:個人参加者同士のチームビルディングの機会は設けられるか?また,個人で申し込み後,チームメンバーを他から集めて参加することは可能か?
A:
slackでチーム同士の情報交換ができる場を設けます.また,個人で申し込んだあとに,メンバーを集めてチームを構成して頂いても結構です.チーム構成によってはソフトウェアやデータ使用に関する誓約書は別途頂くことになります.

Q:個人で申し込み,後から複数人での参加に変更する場合チーム名の変更は可能か?
A:
可能です.

Q:ひとチーム何人ほどで参加することを想定されているか?
A:
1名から参加可能です.開発するシステムの複雑さによっては2~3名以上になることは考えられます.

Q:本選参加は何チームぐらいを想定しているか?
A:
全体の3,4割を本選出場と考えています.参加チーム数や,予選会の評価によっては増える可能性もあります.

Q:開発中のシステムを,コンペに参加していない人に試してもらってもよいか?
A:
結構です.ロボットを使用するリモートテストの場合は,動くロボットと画面越しで話すことになります.

Q:本選会の際に参加者は開発内容について発表するということだが,予選で敗退したチームも、本戦会までは開発を継続してもよいか?
A:
結構です.

参加準備について

Q:コンピューターはWindowsとLinuxの二台必須か?
A:
Linuxは対話相手の表情認識などの画像処理に必要です.他のプログラムはWindows PC1台で動かすことは可能です.音声認識とロボット制御だけで,対話システムを構成することは最低限可能ですので,画像認識なしでもよければ,Windows PC1台でも結構です.

Q:参加申し込み後,プログラムの配布はいつされるか?
A:
申し込み後,ソフトウェアと観光地データの使用に関する誓約書の提出をお願いしております.誓約書を受け取り次第,プログラムをお渡しします.

予選会・本選会参加について

Q:ハードウエアのセットアップについて,マイクは現地に用意されていなく,参加チームが自らのマイクを持ってくるという理解でよいか?カウンターでのマイクのセットアップや参加者のPCとの接続はどうすればよいか?
A:
実行委員の方で,マイクを音声認識システムを用意しており,マイクと音声認識システムが実行されているPCとの接続も設定済みです.ただし,今回のレギュレーションでは,参加者が独自に音声認識システムを用意することも可能としており,独自に用意する場合は,マイクと音声認識システムを実行するPCを持参して,会場でマイクのセットアップも行ってください.

ロボットシステムについて

Q:全てpythonのみで記述可能か?
A:
可能です.提供するプログラムから認識処理結果を取得したり,ロボットへ制御指令を送信したりするのは,すべてソケット通信で行うため,どのOSのどの言語を使ってプログラムを開発して頂いても結構です.

Q:デモ動画を見るとアンドロイドがたまに睨むような瞬きをするが(少し怖いように見える),調整することは可能か?
A:
ユーザが調整することはできませんが,主催者側が調整します.ただし,ハードウェアの制約上,瞬き速度に上限があったり,まぶたが閉じきらないようにしている現状の設定で,睨むように感じられる可能性があります.

Q:アンドロイド「エリカ」は手が動かせるとのことだが,コンペでは手の動作は対象外か?
A:
コンペでは,「アンドロイドI」を使用します.このアンドロイドは,手の動きを制御することができないため,手の動作は対象外となります.

Q:今回の対話アンドロイドの開発で,制御できることは何か?
A:
会話内容・音声パラメータ・表情・視線・首動作を制御できます.

Q:ロボット自身の発話を誤って認識してしまうことはないか?
A:
予選,本選会場では,接話マイク,あるいはマイクアレイを使用することで,極力,ロボット自身の発話を誤って認識しないようなセッティングにします.

Q:シミュレーターはあるか?
A:
アンドロイドの動作をCGで確認することができるものは用意しています.

Q:関西弁の認識できるか?
A:
提供するプログラムではGoogleの音声認識を用いています.Googleの音声認識では関西弁の認識はある程度可能のようです.

Q:音声認識で,発話スタート・終了は自らのプログラムで探知しなければならないか?
A:
はい.音声認識プログラムは,認識を始めると逐次結果(interimresult:***)を送信してきます.発話が終わったと判断した後に,最終結果(result:***)を送ってきます.これらをすべて受信して,はじめと終わりを判断してください.
<例:上から順に結果が得られます>
interimresult:今日
interimresult:今日は
interimresult:今日は
result:こんにちは
confidence:0.8813719153404236

Q:認識のタイムディレイは(うまくいったとき)どの程度か?
A:
認識したい発話の長さに依存します.短い発話(1秒未満)だと300msec,それ以上長いと500msec程度の遅延が生じます.

Q:音声認識が失敗した時はどのような値が返されるか?
A:
音声認識結果の失敗の定義によります.
・最終音声認識結果には信頼度(confidence)が得られます(1に近い値ほど信頼度が高く,0に近いほど信頼度が低い)
・音声認識をしない場合:何も出力が得られません
・最終結果を出さない場合:声が小さかったり短すぎる発話の場合,逐次結果(interimresult)を送信した後に,最終結果(result)を送信しない場合があります.interimresultを受け取った後,数秒たってもresultが送られてこない場合,ユーザ側で音声認識と判断してください.

Q:不自然な日本語の自動修正はされないのか?
A:
Googleの音声認識では,ある程度不自然な日本語の修正を行っているようです.

Q:音声認識結果はN-bestをとってくることは可能か?
A:
配布しているソフトウェアでは不可能です.ただし,認識系のプログラムは参加者が独自に準備してもよいことになっているので,N-bestを取得できる音声認識プログラムを参加者自身で用意することは可能です.

Q:体験者の顔の位置を使う場合、世界座標上の顔の位置を計測することは可能か?
A:
配布しているソフトウェアでは,世界座標上の顔の位置の情報を得る機能は含まれておりません.配布しているサンプルソフトウェアでは,お客様の頭部位置は,キックオフミーティング資料にありますようにロボットの前方1.5mで,高さ1.2mの位置のあると想定しています.参加者が独自にKinect等,三次元位置が測定できるセンサを設置して独自の認識システムを用意することは可能です.

Q:まばたきに要する時間はユーザが制御しないで組み込まれているか?デモビデオではやや長く感じられた.
A:
まばたきに要する時間をユーザが調整することはできませんが,主催者側が調整します.ただし,ハードウェアの制約上,瞬き速度に上限があります.

Q:目の伏せ具合は制御できるか?
A:
どの状況での目の伏せ具合かにより制御の仕方が変わりますが,調節可能です.上まぶたの開き度合いであれば表情を,眼球の向きでしたら視線の位置を調節することで対処できます.

Q:発話のスピードを調整することはどの程度できるのか?例えば倍近く早く話すというは可能か?
A:
可能です.ただし,あまり早く喋らせるとアンドロイドの口の動きが追いつかない恐れがあります.

Q:瞬きや発話時の口の動き以外は,プログラムで操作しなければ全く動かないか?
A:
瞬き・口の動き以外に,アンドロイドが発話する際に頭部が自動で発話に合わせ動いたり,感情状態に応じた姿勢・ゆらぎといった無意識的な人らしい動きを行います.そのため,基本的には感情状態の設定とアンドロイドに発話させるだけで,システムが人らしくアンドロイドを自動で動かしてくれます.

Q:頷きや首傾げといった頭部の動作を行うことは可能か?可能な場合は対話制御はどういった指令を出す形になるのか?
A:
頷き動作・首かしげ動作は事前に定義した動作を再生する形式で実装されています.そのため動きの速さや大きさは一定となります.指令はplaymotion nod\nのようにジェスチャ名を指定してください.

Q:お客様が椅子に座った状態からタスクが開始するとのことだが,座ったかはセンサ情報から推定する必要があるということか?
A:
お客様が椅子に座った状態を参加者が確認し,そして参加者のプログラムを開始することを想定しているので,センサ情報から推定する必要はないです.センサ情報から推定して自動的に開始するようにプログラムを作成して頂いても結構です.

Q:ロボットの表情は何種類くらい定義されているか?
A:
現状はfullsmile,bad,angryとMoodBasedFACSがあります.
・表情として,fullsmile,bad,angryのいずれかを指定すると,感情状態によらず決まった表情をとります.
・表情としてMoodBasedFACSを指定すると,感情状態(Arousal,Valence,Dominance)にあった表情に段階的に変化します.
MoodBasedFACSを指定した後,感情状態を変化させることで,より状況に適した表情を表出させることが可能です.(参考)

Q:シミュレータ上で机などのオブジェクトを表示するプログラムは配布ソフトに含まれているか?
A:
はい.含まれています.MiracleHuman.exeを起動し,ロボット選択を行った後にCreateDeskMonitorHuman.batバッチファイルを起動してください.あるいは,Miracleforrobotcom.batを使ってください.Miracleforrobotcom.batは,MiracleHuman.exe起動後,数秒待ってCreateDeskMonitorHuman.batを実行します.この場合はその数秒の間にロボット選択をしてください.