音声対話グループ

『対話を通じてヒトから情報を取得する研究』(大塚, 2015)

データベース検索型音声対話システムでは,検索対象データベース内の単語しか参照できません.データベース外の単語について聞かれた場合,検索対話自体を終了してしまいます.

本研究はこの問題を解決するために,データベース外の単語について質問されても,検索対話を終了せず,ユーザと対話することで単語の情報を取得することを 目指しています.具体的には,まず,検索単語に関してシステムが推定します.次にその結果から,ユーザへの質問を生成します.ここで,本研究では単純な質 問ではなく,より具体的な質問を生成します.単純な質問の場合,ユーザがシステムの知らない言葉を使用してしまうかもしれないからです.

このシステムの実現により,データベース外の単語の実体をユーザから取得し,データベースに登録することができます.さらにWeb検索等を併用した情報取得が可能となり,データベース外の単語についての検索も可能となります.

発表実績

    • 大塚 嗣巳, 駒谷 和範, 佐藤 理史, 中野 幹生:

    • データベース検索音声対話システムにおける対話を通じた店舗属性取得.

    • 情報処理学会全国大会 講演論文集, Vol.75, 6T-3, 3/8発表, 2013.

『ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム』(堀田, 2015)

近年,声で携帯電話の操作ができるようになるなど,音声対話システムがますます身近なものとなってきています.この音声対話システムの問題点のひと つに,音声認識の誤りがあげられます.音声認識誤りの原因のひとつに発話区間検出の誤りがあります.発話区間検出とは,ユーザの発話がいつ始まり,いつ終 わったかを検出する処理です.

一方で,人(ユーザ)は長い単語や文を発話するときに言い淀む場合があります.音声対話システムにおいてこのような言い淀みが発生した場合,発話区間が 誤って分割される可能性があります.発話区間が分割されてしまうと,本来は1発話であったユーザの発話が,2発話として認識されてしまいます.

本研究では,発話が誤って分割された場合に,誤分割された発話を結合して再度音声認識を行うことで,発話区間検出の誤りを事後的に修復します.これにより,ユーザが言い淀んだ状況であっても,システムに正しい応答をさせることができます.

発表実績

    • 堀田 尚希, 駒谷 和範, 佐藤 理史:

    • ユーザの言い淀みによる発話の誤分割を事後的に回復する音声対話システム.

    • 情報処理学会全国大会 講演論文集, Vol.75, 6T-7, 3/8発表, 2013.

『簡略語を使える音声対話システム』(秋田谷, 2014)

簡略語を利用して対話を行なうシステムについて研究しています.ユーザが簡略語を使用したとき,システムが同様の表現を使って応答することで,対話 をより簡潔にすることが可能となります.このシステムの実現には3つの課題を解決する必要があります.1つ目は,簡略語を正しく認識できること.2つ目が 認識した簡略語から元の単語を予測できること.3つめが元の単語と簡略語のどちらの表現で応答するか決定することです.

現在は,簡略語を正しく認識する問題に取り組んでいます.ここでは,システムが持つ辞書に,辞書中の単語から予想される簡略語を追記することで認識率の向上を実現します.

発表実績

    • 秋田谷 樹:

    • 簡略表現の生成規則に基づく言語モデルの拡張.

    • 第17回東海地区音声関連研究室修論中間発表会,8/5発表,2013.

    • 秋田谷 樹, 駒谷 和範, 佐藤 理史, 中野 幹生:

    • 簡略表現の音声認識を目指した生成規則と出現頻度の調査.

    • 情報処理学会全国大会 講演論文集, Vol.75, 6T-6, 3/8発表, 2013.

『ヒューマノイドロボットへの話しかけやすさのモデル化』(杉山, 2014)

人同士の会話では,人は特に意識せずとも,自分に向けられた発話と周辺の雑音を判別することができます.人間とヒューマノイドロボットの会話では, ロボット自身が周辺の雑音と自分に向けられた発話を判別できなければなりません.本研究では,ロボット自身の動作や発話をもとに,ユーザがロボットに話し かけやすい状況か否かを予測するモデルの構築を目指します.

これにより,ロボットに向けられたユーザの発話と周辺雑音をロボット自身に区別させることや,ロボットがユーザの発話を認識できる状態になるまで,ロボットに話しかけにくい行動をさせることができるようになります.

発表実績

    • 杉山 貴昭, 駒谷 和範, 佐藤 理史:

    • ロボットとの音声対話における発話の重なりを含む入力音の判別.

    • 情報処理学会全国大会 講演論文集, Vol.75, 4T-3, 3/7発表, 2013.

    • Takaaki Sugiyama, Kazunori Komatani, Satoshi Sato:

    • Predicting When People will Speak to a Humanoid Robot.

    • International Workshop on Spoken Dialogue Systems (IWSDS2012), Nov. 30, 2012.

    • 杉山 貴昭, 駒谷 和範, 佐藤 理史:

    • ヒューマノイドロボットが話しかけられやすさを予測するモデルの構築.

    • 人工知能学会第26回全国大会,6/12発表,2012.

    • 杉山貴昭, 駒谷和範, 佐藤理史.ヒューマノイドロボットへの話しかけやすさのモデル化.

    • 情報処理学会全国大会 講演論文集, Vol.74, No.2, 5Q-3, pp.193-194, 2012.

『一問一答型音声対話システムにおけるシステムからの自発的な発話生成』(吉田, 2014)

近年,Siriやしゃべってコンシェルなどで一問一答型音声対話システムが身近になっています.インターネット上の記事やTwitterを見ると,むしろ システムの雑談的応答をユーザが楽しんでいる様子が,インターネット上の記事や Twitter などで見られます.

本研究では,ユーザの質問がない時に,システムが自発的に雑談的発話を行い,対話を盛り上げることを目指します.生成する自発的な発話によって,対話履歴の内容に関連のある発話を行ったり,逆に話題を変えることで対話をコントロールします.

このような発話生成は,発話と発話の内容の関連の強さを機械的に計算し,数値で表現することによって実現します.現在は,名詞の種類やその付属語といった言語的な特徴によって,発話同士の関連の強さを表現することに取り組んでいます.

発表実績

『ロボットの誤動作を自動検出する研究』(服部(真), 2013)

ロボットとの音声インタラクションでは,音声認識誤りなどにより,ロボットがユーザの意図とは異なる動作(誤動作)をしてしまうという問題が生じま す.ロボットが自身の誤動作を検出できれば,それに対応した動作や発話を生成できます.本研究では,ロボットの誤動作が生じた際のユーザの反応を用いて, 誤動作を検出します.

まず,ロボットとユーザのインタラクションデータを収集し,誤動作時のユーザの反応を典型的なものに分類します.ユーザの反応は具体的には,ロボットの間 違った応答に対する笑い,ロボットの応答がない場合の質問の繰り返し,などがあります.次に,データより,発生数の多いユーザの反応の発生区間を設定しま す.この発生区間中のシステムのログに現れる,ユーザの反応を示す特徴を用いて,ロボットの誤動作の自動検出を行います.

発表実績

    • 服部 真之, 駒谷 和範, 佐藤 理史:

    • 音声インタラクションでの参加者の反応に基づくロボットの誤動作の自動検出.

    • 情報処理学会全国大会 講演論文集, Vol.75, 6T-4, 2013.

『複数人会話システムの開発』(中島, 2013)

複数人会話システムの開発を行っています.複数人会話システムとは,2人以上のユーザと会話するシステムのことです.私の研究では,ロボットを2体 利用して会話を実現します.複数人会話システムを実現するためには,次の3つの課題を解決しなければなりません.まず,どの場所にいるユーザが発話したの かを特定すること.次に,そのユーザが,誰 (ロボットか別のユーザ)に発話したかを認識すること.そして,ユーザが何を発話したかを認識することです.

現在は,どの場所にいるユーザが発話したかを特定する問題に取り組んでいます.具体的には,「音源定位」という技術を用いて,ロボットのマイクからみた音源の到来方向を認識します.これを2体のロボットで同時に行い,結果を統合することで,より正確な特定を目指します.

発表実績

    • 中島 大一, 駒谷 和範, 佐藤 理史:

    • 複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定.

    • 情報処理学会全国大会 講演論文集, Vol.75, 4T-1, 2013.

    • 中島 大一,駒谷 和範,佐藤 理史:

    • 複数人会話におけるロボットによる視聴覚情報に基づくアクティブユーザの推定.

    • 情報処理学会研究報告, Vol.2012-SLP-095, No.20, 2013.

    • Taichi Nakashima, Kazunori Komatani, Satoshi Sato:

    • Integration of Multiple Sound Source Localization Results for Speaker Identification in Multi-party Dialogue System.

    • International Workshop on Spoken Dialogue Systems (IWSDS2012), Nov. 30, 2012.

    • 中島 大一,駒谷 和範,佐藤 理史:

    • 複数ロボットによる音源定位結果を統合し発話者を特定するシステム.

    • 人工知能学会 AIチャレンジ研究会, 11/15発表, 2012.

    • 中島大一, 駒谷和範, 佐藤理史.複数人会話システムにおける複数の音源定位結果の統合による発話者の特定.

    • 情報処理学会全国大会 講演論文集, Vol.74, No.2, 4U-3, pp.579-580, 2012.

デモ

以下でデモ動画を公開しています.http://sslab.nuee.nagoya-u.ac.jp/?page_id=609

『音声対話システムにおける言語モデルの性能向上』(森, 2013)

近年,音声を使ったサービスが続々と登場しています.これらのサービスでは,音声認識結果を使用しています.音声認識とは,人(ユーザ)の発話を文 字列に変換する処理のことです.得られた文字列からサービスを提供するために必要な情報(お店の検索なら店名や地名など)を取得しています.

音声認識では言語モデルを使用します.言語モデルとは,発話を最もあり得そうな文に変換するために使われるモデルです.例えば「もとやまのらーめんやさん をおしえて」という発話を「本山のラーメン屋さんを教えて」という文字列に変換します.この言語モデルが悪いと音声認識誤りが起こりやすくなり,発話を正 しい文字列に変換できません.

本研究では,文字への変換性能の良い言語モデルの構築を目指しています.現在は,特にサービスを提供するために必要な情報となる固有名詞の認識を良くするための研究をしています.

発表実績

    • 森 祥二郎, 駒谷 和範, 佐藤 理史:

    • ドメイン固有語の認識率向上を目指した音声対話システム用言語モデルの構築.

    • 情報処理学会全国大会 講演論文集, Vol.75, 6T-2, 2013.

    • 森 祥二郎,駒谷 和範,佐藤 理史:

    • 音声対話システム用クラスN-gramモデルによるドメイン固有語の認識率向上.

    • 情報処理学会研究報告, Vol.2012-SLP-095, No.1, 2013.

    • 森祥二郎, 駒谷和範, 佐藤理史.音声対話システムの言語モデル自動作成を目指したコーパスへのクラス付与.

    • 情報処理学会全国大会 講演論文集, Vol.74, No.2, 5Q-2, pp.191-192, 2012.

『音声対話システムでの対話の状態の推定』(西村, 2012)

何かの情報が欲しいとき,例えばレストランを探しているときに,音声対話ができるコンピュータや情報端末を使って音声対話で簡単に情報が検索できれ ば便利です.音声対話システムでは,音声認識を使っていますが,認識誤りが起こってしまいます.こうなると,システムからの応答も適切でないものになって しまいます.

そこで,音声認識結果だけではなく,対話の状況も考慮すれば,状況に応じて適切な応答をすることができます.本研究では,対話の状態を自動で予測できるようにして,その結果を受けて,各場面に適したシステム応答ができるようにします.

発表実績

    • 西村良太, 駒谷和範.データベース検索音声対話システムにおける対話状態の推定.

    • 情報処理学会研究報告「音声言語情報処理(SLP)」, Vol.2012-SLP-090, No.21, pp.1-7, 2/4発表, 2012.