Research topics

English

デモビデオはこちら。

技術紹介ビデオはこちら(英語)。

人と人とのコミュニケーションに音声による対話は欠かせない。逆に考えれば、ほぼ全ての人間は、もっとも自然なインタフェース手段として音声言語を獲得し、使いこなしているのである。コンピュータ上でその音声言語を扱うこと、それが人間にとってもっとも負担の少ない情報伝達手段であり、また現代の大規模データ格納技術を持ってすれば、情報保存手段でもありうるのである。 このような音声言語を扱う上での様々な技術を研究している。

大語彙連続音声認識

講演音声などの書き起こしなど、大語彙連続音声認識の適用が期待される場面は多い。近年は深層学習モデルによるEnd-to-end音声認識の研究が進んでいる。モデルの改良、言語モデルの適用法など、様々な側面から、その高精度化を図る。

高齢者音声認識

音声認識・音声対話の恩恵を受けるのは、いわゆる情報弱者である。特に、情報機器に不慣れだったり身体機能の低下などによって機器の扱いが難しくなる高齢者にとって有効なはずである。しかし、高齢者のための音声認識の研究は進んでいない。我々は地道な高齢者音声の収集から初めて、いかにして高齢者が利用できる音声認識システムを構築するかを研究している。

雑音下音声認識

雑音環境下での音声認識性能の低下は実用化において問題となる。実用に 向けて、手法の評価活動および標準化活動が欧米で盛んになってきた。こ の動きに呼応して日本で標準的音声認識評価基盤開発グループのリーダー として無償配布の評価データベース・ツール群であるCENSRECシリーズを 開発・配布している。

CENSREC

音声対話インタフェース(1) -親しみやすいインタラクション-

一般ユーザが音声対話インタフェースに慣れ親しむには?使ってみると 「返事がなかなか返ってこない」「聞いてるのかどうか分からない」そこ に壁を感じる。そこで、リアルタイムに反応を示す、また対話の「盛り上がり」にも調子を合わせ、話す事自体が楽しめるようなシステムとするこ とにより、その壁を取り払うことを試みる。また、あらゆる発話に対しても、頑健に返答し、また誤認識・誤理解による混乱からもすばやく回復できる理解手法も研究する。

YouTube(日本語版)

音声対話インタフェース(2)-医療の現場への応用

医療現場では聞き取った内容をすぐさまカルテに反映したり、患者との対話を情報源として収集したりする必要がある。こうした場面などで医療現場の効率化を図るための音声認識・対話技術の応用を、病院との共同研究の一環として研究している。

YouTube(日本語)

音声対話インタフェース(3) -自然に動作するインタフェース-

普段はその存在を意識しないが、利用したいときには自然に呼びかけに答 えてくれる―そんなインタフェースのために、自分への話しかけを感じとっ て応答するシステムの構築を目指す。呼びかけに、すぐさま応答、そんなインタフェースを作ります。

YouTube(日本語版)

マルチモーダルインタフェース

いつでも、ネットワーク上の様々な情報にアクセスできる手段として、音 声対話を主とするマルチモーダルインタフェースを用いることを試みる。 ペン入力、タッチパネル、指さし動作などと、いかに組み合わせるかがカギとなる。

マルチモーダルインタフェースを用いると様々なことが可能になる。

たとえば、数学の幾何の問題を解答するときは、人は声と指を使う。それを理解してみたい。

YouTube(日本語版)

究極的には、自動運転車を操作することも。

YouTube(日本語版)

YouTube (English)

Web記事

自然で表現力豊かな音声合成

いろんな入力ができても、システム側が不自然な応答では自然な対話は成立しない。人間と区別できないほどの高品質な音声合成は言うに及ばず、個性や感情まで表現できる合成が望まれる。

そこで、韻律(アクセントなどの声の強弱や高低)を制御したり、感情的な音声を学習したりして、自然で表現力のある音声合成を目指している。

デモサイト

マルチメディア横断検索

音声・言語・音楽…様々なメディアを超えて、例えば言語で音楽を検索できる。そういうメディア横断的な情報検索を目指します。例えば音声→言語→音楽検索だと、こんなこともできます。

YouTube(日本語版)