音声強調

音声強調は,雑音・残響下で発話された音声から歪の少ない音声を分離・抽出する技術です.音響信号処理技術,機械学習技術を活用した基本技術の開発・拡張,およびロボット聴覚など応用を意識した技術の開発を行っています.

深層ニューラルネットワークの高い表現能力に頼った音源分離方式は,観測された混合信号と音源信号のペアから構成される教師データが大量に必要になります.しかし,実環境において観測されるのは混合信号のみであり,正解の歪のない信号を得ることは困難です.それに対し,音源分離システムを実環境で運用するために,クリーンな無歪音声信号を必要とせず,マイクロホンで観測された混合信号のみを用いて,音源分離システムを教師なしで学習する技術に焦点を当てて開発・拡張を行っています.

分離・再混合無矛盾学習

高精度な音源分離・安定した学習を可能とする教師なし音源分離の新たな枠組み

雑音を含む観測信号に対して分離・再混合を繰り返し,観測信号を再構成するように仕組むことで,歪みが少なく,安定した学習を可能とする教師なし音源分離の新たな枠組みを提案しています.

関連文献

メンタリング・リバースメンタリング学習

雑音を含む観測信号と所望の無歪み信号の対を必要としない教師なし学習のための新たな知識伝搬の枠組み

教師なし学習で構築可能ですが質の良い初期値が必要なモデルをシニアシステム,質の良い教師データが必要である深層学習モデルをジュニアシステムと呼び,この二つのシステムが相互に知識を伝搬することで,教師ラベルを陽に必要としない学習を効率的に行うことが可能になります.シニアからジュニアには音源の確率モデルに基づき推定した疑似正解信号を,ジュニアからシニアには周波数間,データ間の相関などのデータドリブンな知識が伝搬されることを期待しています.

関連文献:

信号処理歪みの補正

雑音混じりの音声から雑音を高精度に除去しようとすると生じる信号処理特有の耳障りな歪を補正する技術

一般的に,雑音混じりの音声から雑音を高精度に除去しようとすると,信号処理特有の耳障りな歪が生じます.一方,そのような歪を抑えようとすると雑音が残留してしまいます.本研究では,このトレードオフを解消し,高精度に雑音を除去しながら歪の発生も抑える方法について検討を行っています.

関連文献:

End-to-end音声強調

高い表現能力を有する深層ニューラルネットワークを用いて雑音下で発話された音声から歪のないクリーンな信号を高精度に推定する技術

雑音交じりの信号と歪のない音源信号のペアを大量に準備するのは実応用において高い障壁になるため,コンパクトなネットワーク設計,知識を組み込んだネットワーク設計,信号処理によるフィルタとの結合学習,などに焦点を当て,実問題でも頑健に動作する技術の開発を目指しています.

関連文献:

実環境での利用を指向した音源分離技術

携帯端末の音声入力インタフェースやロボット聴覚など実環境での利用を指向した小型・高速・頑健な音源分離・雑音抑圧技術

携帯端末の音声入力インタフェースやロボット聴覚を実現するために音源分離・雑音抑圧技術に求められる要件として,1)音声入力デバイスが小型で低計算コストである,2)音源(ユーザ)が多少動いても頑健に動作する,3)指向性・拡散性様々な種類の雑音を同時に抑圧可能である,ことが挙げられる.この3つの要件を同時に満たす音源分離・雑音抑圧技術について検討を行っています.実際に,携帯端末およびロボットに搭載可能なマイクロホンアレイの開発を行い,有効に動作することを確認しています.ロボット聴覚のデモ動画はこちら

関連文献: