MacOS/Windows に対応した Docker image を配布
Docker を用いるためのドキュメントを追加
本ソフトウェアの安定性向上
TTS のスタイル指定機能を追加
シチュエーショントラック・タスクトラックに応じた MMDAgent の実行環境を追加
TravelViewer を追加
TTS を Azure TTS へ変更
動画入力への対応
Py-feat を用いた感情認識と顔向き推定
対話システムライブコンペティション7では,Remdisをベースとしたソフトウェアをオーガナイザから提供します.このソフトウェアを用いることで,テキストチャットシステムの出力にマルチモーダルの出力情報を追加するだけで,マルチモーダル対話システムを構築することが可能です.
Remdisベースシステム:(Github; https://github.com/p1n0k0/Dialogue_System_Live_Competition_7 )
シチュエーショントラック
以下のファイルのみ変更可能です.
response_w_tts_style.txt
text_vap.txt
time_out.txt
system.txt
config内の以下のパラメータ
initial_utterance
utterance_to_terminate
history_length
max_tokens
response_generation_interval
タスクトラック
以下の3点を遵守していれば,他の部分は自由に開発いただけます.
音声合成に Azure API の `ja-JP-NanamiNeural` を用いること
指定のソフトウェア(MMDAgent-EX)において、指定の設定(task.mdf, CGアバター・背景・各画像の配置等を指定)で表示・動作させること
指定の画像・地図表示システム(Travel Viewer)を使用すること
詳細が決定次第,追記します.
現在議論中ですが,参考までに対話システムライブコンペティション6で推奨されたスペックに関して記載します。
OS: Windowsのみ
CPU:Core i7以上
メインメモリ:16GB
その他:GPUおよびカメラが必要
【OpenAI APIキー取得】
未取得の方は事前にOpenAIのAPIキーを取得してください.以下のページ等を参考に取得してください.
https://book.st-hakky.com/data-science/open-ai-create-api-key/
https://qiita.com/kurata04/items/a10bdc44cc0d1e62dad3
【Remdisへの反映】
config/config.yaml中にあるChatGPT:中のapi_key: <enter your API key>に対して,<enter your API key>を削除しその部分に取得したAPIキーを入力してください.
※ 以下の画像はRemdis公式リポジトリ中のコードをGithub上でスクリーンショットした画像です
【Google Speech Cloud APIキー取得】
未取得の方は以下の手順でGoogle Speech Cloud APIのAPIキーを取得してください.ただし,タスクトラック参加の方のうち音声認識にCloud Speech-to-Text APIを利用されない場合,取得の必要はありません.
(Googleアカウントをお持ちでない場合)以下のページから必要事項を入力しGoogleアカウントを作成
以下のページを参考にJSONファイルをダウンロード
【Remdisへの反映】
「OpenAI APIキー取得とRemdisへの反映」と同様,config/config.yaml中にあるASR:のjson_key: <enter your json path>に対して,<enter your json path>を削除しダウンロードしたJSONファイルのパスを入力してください.
ダウンロードしたファイルのパスを調べる方法
Azure API を使用することでテキストから音声を合成する際に「怒っている声」や「悲しい声」といった感情をのせた音声を生成することが可能です.シチュエーショントラック・タスクトラック両トラックとも音声合成器はAzure APIの ja-JP-NanamiNeural で統一とさせていただきますので,Azure APIキーをご用意いただいた上で,必ずja-JP-NanamiNeuralを音声合成器として利用したシステムを構築してください.
【Azure API キー取得】
以下のページから必要事項を入力し Azure アカウントを作成
https://azure.microsoft.com/ja-jp/pricing/purchase-options/azure-account
(Azure の無料枠を使い切っている場合は従量課金制になります)
作成した Azure アカウントを用いて Azure ポータルにログイン
「Azure AI services」のページへ移動
検索欄に「Azure AI services」と入力して検索するのが便利です
「作成」をクリックし,下の画像(左)のように入力し,「確認と作成」をクリックしてモデルを使える状態にします
リソースグループや Instance Details の Name は適当な名前で構いません
Instance Details の Region のみ Japan East を指定してください
下の画像(右)のようになっていればモデルの作成は成功です.作成したモデル名をクリックしてモデルのページを開くと「キー1」か「キー2」という項目があります.こちらが所望のAPIキーです(どちらを使っても構いません)
【Remdisへの反映】
config/config.yaml中にあるTTS.azure:の api_key と region をそれぞれ書き換えてください
ja-JP-NanamiNeural が対応している声のスタイルについてはこちらをご参照ください