音声認識
音声認識は,入力された音声信号に対して「何を話しているか」を推定する技術です.パターン認識・機械学習技術を活用し,特に環境変動に頑健な技術の開発に焦点を当てて基本技術の開発・拡張を行っています.
ゼロ遅延ストリーミング音声認識
発話終了時点で認識処理も終わっている,高精度・低遅延のストリーミング音声認識
一般的に,音声認識は発話が終了した段階で最適な文字や単語の組み合わせを探索する処理が始まります.また,先読みを行いながら(ちょっと未来の情報に頼りながら)探索を行うことで認識性能が向上します.このような枠組みは高精度な認識を実現できるものの,音声対話システムなどにおいてリズムのある会話を実現しようとすると相性が悪いのです.例えば,システムは相手の発話の内容に応じて途中で割り込んだり,相槌や頷きを行ったりするのが自然です.また,発話終了から認識結果が得られるまでの遅延は,その後の自然な応答を生成するに際し致命的になります.そのために,時々刻々発話内容の認識を行うとともに,発話終了段階では遅延なく高精度な認識処理が完了するようなストリーミング音声認識の実現を目指して研究・開発を行っています.
関連文献:
Huaibo Zhao, Shinya Fujie, Tetsuji Ogawa, Jin Sakuma, Yusuke Kida, Tetsunori Kobayashi, ``Conversation-oriented ASR with multi-look-ahead CBS architecture,'' Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), June 2023. (to appear)(発話終了時点で認識処理が完了しているストリーミング音声認識モデルの提案)
HC-CTC
低レベルの(抽象度の低い)情報を組み上げることで高レベルの(抽象度の高い)情報を構成可能とする特徴表現学習法
粒度の低い単位による予測によって,粒度の高い単位による予測を条件付けることで,単語単位の系列を生成する過程を明示的に学習します.音声→音素→単語→テキストの変換過程のように,言語情報の抽象度を段階的に上げる学習を行うことで,単語を推定するための特徴抽出が効果的に学習されることを期待しています.
関連文献:
Mask-CTC
Connectionist Temporal Classification (CTC) における条件付き独立性の制約を低減できる特徴表現学習法
CTCとマスク推定のマルチタスク学習により,長期コンテキストを考慮することでCTCの条件付き独立性の制約を低減できる特徴表現学習法として,Mask-CTCを提案しています.マスク推定には,置換・挿入・脱落といった誤りを頑健に補正可能な仕組み(dynamic length prediction)も導入されています.長期文脈を考慮した特徴表現は音声の先読みにも有利になり,低遅延・高精度なストリーミング音声認識にも有効であることがわかっています.本研究は,米国・カーネギーメロン大学の渡部晋治先生との共同研究です.
関連文献:
Huaibo Zhao, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, ``An investigation of enhancing CTC model for triggered attention-based streaming ASR,'' Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2021 (APSIPA2021), pp.477-483, Dec. 2021. [URL] [Scopus]
Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi, ``Improved Mask-CTC for non-autoregressive end-to-end ASR,'' Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021), pp.8363-8367, June 2021. [DOI]
Yosuke Higuchi, Shinji Watanabe, Nanxin Chen, Tetsuji Ogawa, Tetsunori Kobayashi, ``Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict,'' Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020), pp.3655-3659, Oct. 2020. [DOI]
メタ認知機能を持つ音声認識
人が持つメタ認知機能(知っているか否かを知る機能)をコンピュータで実現する
複数の相補的な認識システムを入力データの性質に応じて(メタ認知機能に相当する認識システムの性能予測を用いて)適切に選択しながら認識を行うマルチストリーム型パターン認識によりこれを実現し,データの収集だけに頼らずに未知の入力に対して頑健に高い性能を与えるパターン認識装置の構築を目指します.本研究は,米国・ジョンズホプキンス大学のHynek Hermansky教授との共同研究です.
関連文献:
Tetsuji Ogawa, Harish Mallidi, Emmanuel Dupoux, Jordan Cohen, Naomi Feldman, Hynek Hermansky, ``A new efficient measure for accuracy prediction and its application to multistream-based unsupervised adaptation,’’ Proc. ICPR2016, pp.2222-2227, Dec. 2016. [DOI] [Scopus]
Sri Harish Mallidi, Tetsuji Ogawa, Hynek Hermansky, ``Uncertainty estimation of DNN classifiers,’’ Proc. ASRU2015, pp.283-288, Dec. 2015. [DOI] [Scopus]
言語モデルのドメイン適応・ドメイン汎化
ドメインに共通する語彙・文脈に関する特徴表現を高精度に獲得し効果的に利用する方法
予測対象のドメインで大規模な学習テキストが得られない場合,異なるドメインの大規模テキストで構築されたモデルを少量の対象ドメインテキストを用いて修正(ドメイン適応)することで,言語モデルの性能が向上することが知られています.本研究では,特に複数人の対話音声認識の性能向上を目指し,リカレントニューラルネットワーク言語モデルのドメイン適応技術について検討を行っています.主に,ドメインに共通する語彙・文脈に関する特徴表現を高精度に獲得し効果的に利用する方法,ニューラルネットワークの入力として補助情報を効果的に利用する方法について検討を行っています.
関連文献:
Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Hiroto Ashikawa, Tetsunori Kobayashi, Tetsuji Ogawa, ``Multi-source domain generalization using domain attributes for recurrent neural network language models,'' IEICE Trans. Inf. & Syst., vol.E105-D, no.1, pp.150-160, Jan. 2022. [DOI] [Scopus]
Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, ``Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations,’’ Proc. ICASSP2018, pp.6084-6088, April 2018. [DOI] [Scopus]
Hiroto Ashikawa, Naohiro Tawara, Asunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi, Tetsuji Ogawa, ``Exploiting end of sentences and speaker alternations in recurrent neural network-based language modeling for multiparty conversations,'' Proc. APSIPA2017, Dec. 2017. [DOI] [Scopus] [Poster Book Prizes]
頑健な特徴抽出(ディスエンタングリング)
発話内容と発話者といった複雑に混ざり合った情報を分離・抽出するためのニューラルネットワーク
音声は発話内容(何を話しているか)に加えて発話者(誰が話しているか)の情報も含みます.一般的に,音声認識(発話内容の認識)は発話者の違いに頑健ではなく,逆に発話者の認識は発話内容の違いに頑健ではありません.そのため,音声認識に関する研究の歴史においては,話者の違いに頑健な音響特徴量,つまり話者情報をそぎ落とすような特徴量が提案されており(例えば,RASTA-PLPやBNF),実際に話者の違いに対して頑健に高い音声認識性能が得られてきました.しかし,発話者の情報を失ったはずのこれらの音響特徴量を発話者の認識に用いたとき,発話者の認識精度も向上してしまうというミステリーが繰り返されてきました.このミステリーに解答を与えるべく,発話内容と発話者といった複雑に混ざり合った情報を分離・抽出するためのニューラルネットワークについて検討を行っています.
関連文献:
Yosuke Higuchi, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa, ``Speaker adversarial training of DPGMM-based feature extractor for zero-resource languages,'' Proc. INTERSPEECH2019, pp.266-270, Sept. 2019. [DOI] [Scopus]
Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa, ``Speaker invariant feature extraction for zero-resource languages with adversarial training,’’ Proc. ICASSP2018, pp.2381-2385, April 2018. [DOI] [Scopus]
ロンバード音声認識
ロンバード効果が音声認識性能に与える影響の調査
高雑音下で発話する場合,声が大きくなったり,高くなるのが一般的です.この現象はロンバード効果と言われます.本研究では,ロンバード効果が音声認識性能に与える影響を調査しました.例えば,雑音下音声認識システムの評価を行う場合,静かなところで収録された音声(ドライソース)に認識対象の環境のインパルス応答を畳み込み,雑音を重畳することで,雑音下での発話を模擬しています.このとき,ドライソースはロンバード効果が含まれていないため,実際に雑音下で発話された音声の認識性能を正確に模擬できていないことがわかっています.そこで,複数種類の騒音・騒音レベルの下で発話した音声を収録したロンバード音声コーパスの構築も行いました.
関連文献:
Tetsuji Ogawa, Takanobu Nishiura, Takeshi Yamada, Norihide Kitaoka, and Tetsunori Kobayashi, ``Development and evaluation of Japanese Lombard speech corpus,’’ Proc. Internoise2011, Sept. 2011. [Scopus] [Invited talk in Special Session](ロンバード音声コーパスの設計)
Tetsuji Ogawa, Tetsunori Kobayashi, ``Influence of Lombard effect: accuracy analysis of simulation-based assessments of noisy speech recognition systems for various recognition conditions,’’ IEICE Trans. Inf. & Syst., vol.E92-D, no.11, pp.2244-2252, Nov. 2009. [IEICE] [Scopus](ロンバード効果が音声認識性能に与える影響)