音声強調
音声強調は,雑音・残響下で発話された音声から歪の少ない音声を分離・抽出する技術です.音響信号処理技術,機械学習技術を活用した基本技術の開発・拡張,およびロボット聴覚など応用を意識した技術の開発を行っています.
深層ニューラルネットワークの高い表現能力に頼った音源分離方式は,観測された混合信号と音源信号のペアから構成される教師データが大量に必要になります.しかし,実環境において観測されるのは混合信号のみであり,正解の歪のない信号を得ることは困難です.それに対し,音源分離システムを実環境で運用するために,クリーンな無歪音声信号を必要とせず,マイクロホンで観測された混合信号のみを用いて,音源分離システムを教師なしで学習する技術に焦点を当てて開発・拡張を行っています.
分離・再混合無矛盾学習
高精度な音源分離・安定した学習を可能とする教師なし音源分離の新たな枠組み
雑音を含む観測信号に対して分離・再混合を繰り返し,観測信号を再構成するように仕組むことで,歪みが少なく,安定した学習を可能とする教師なし音源分離の新たな枠組みを提案しています.
関連文献:
Kohei Saijo, Tetsuji Ogawa, ``Self-Remixing: Unsupervised speech separation via separation and remixing,'' Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), June 2023. (to appear)
Kohei Saijo, Tetsuji Ogawa, ``Unsupervised training of sequential neural beamformer using coarsely-separated and non-separated signals,'' Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022), Sept. 2022. [DOI] [Scopus]
Kohei Saijo, Tetsuji Ogawa, ``Remix-cycle-consistent learning on adversarially learned separator for accurate and stable unsupervised speech separation,'' Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp.4373-4377, May 2022. [DOI] [Scopus]
メンタリング・リバースメンタリング学習
雑音を含む観測信号と所望の無歪み信号の対を必要としない教師なし学習のための新たな知識伝搬の枠組み
教師なし学習で構築可能ですが質の良い初期値が必要なモデルをシニアシステム,質の良い教師データが必要である深層学習モデルをジュニアシステムと呼び,この二つのシステムが相互に知識を伝搬することで,教師ラベルを陽に必要としない学習を効率的に行うことが可能になります.シニアからジュニアには音源の確率モデルに基づき推定した疑似正解信号を,ジュニアからシニアには周波数間,データ間の相関などのデータドリブンな知識が伝搬されることを期待しています.
関連文献:
Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi, ``Efficient and stable adversarial learning using unpaired data for unsupervised multichannel speech separation,'' Proc. The 22th Annual Conference of the International Speech Communication Association (INTERSPEECH2021), pp.3051-3055, Aug. 2021. [DOI] [Scopus]
Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi, ``Mentoring-reverse mentoring for unsupervised multi-channel speech source separation,'' Proc. The 21th Annual Conference of the International Speech Communication Association (INTERSPEECH2020), pp.86-90, Oct. 2020. [DOI] [Scopus]
信号処理歪みの補正
雑音混じりの音声から雑音を高精度に除去しようとすると生じる信号処理特有の耳障りな歪を補正する技術
一般的に,雑音混じりの音声から雑音を高精度に除去しようとすると,信号処理特有の耳障りな歪が生じます.一方,そのような歪を抑えようとすると雑音が残留してしまいます.本研究では,このトレードオフを解消し,高精度に雑音を除去しながら歪の発生も抑える方法について検討を行っています.
関連文献:
Riku Ogino, Kohei Saijo, Tetsuji Ogawa, ``Design of discriminators in GAN-based unsupervised learning of neural post-processors for suppressing localized spectral distortion,'' Proc. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA2022), pp.969-975, Nov. 2022. [DOI]
Naohiro Tawara, Hikari Tanabe, Tetsunori Kobayashi, Masaru Fujieda, Kazuhiro Katagiri, Takashi Yazu, Tetsuji Ogawa, ``Postfiltering using an adversarial denoising autoencoder with noise-aware training,'' Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp.3282-3286, May 2019. [DOI] [Scopus]
Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi, ``Associative memory model-based linear filtering and its application to tandem connectionist blind source separation,’’ IEEE Trans. Acoust. Speech Lang. Process., vol.25, no.3, pp.637-650, March 2017. [DOI] [Scopus]
End-to-end音声強調
高い表現能力を有する深層ニューラルネットワークを用いて雑音下で発話された音声から歪のないクリーンな信号を高精度に推定する技術
雑音交じりの信号と歪のない音源信号のペアを大量に準備するのは実応用において高い障壁になるため,コンパクトなネットワーク設計,知識を組み込んだネットワーク設計,信号処理によるフィルタとの結合学習,などに焦点を当て,実問題でも頑健に動作する技術の開発を目指しています.
関連文献:
Yu Nakagome, Masahito Togami, Tetsuji Ogawa, Tetsunori Kobayashi, ``Deep speech extraction with time-varying spatial filtering guided by desired direction attractor,'' Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020), pp.671-675, May 2020. [DOI] [Scopus]
Takuya Hasumi, Tetsunori Kobayashi, Tetsuji Ogawa, ``Investigation on network architecture for single-channel end-to-end denoising,'' Proc. The 2020 European Signal Processing Conference (EUSIPCO2020), pp.441-445, Jan. 2020. [DOI] [Scopus]
Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa, ``Multi-channel speech enhancement using time-domain convolutional denoising autoencoder,'' Proc. The 20th Annual Conference of the International Speech Communication Association (INTERSPEECH2019), pp.86-90, Sept. 2019. [DOI] [Scopus]
実環境での利用を指向した音源分離技術
携帯端末の音声入力インタフェースやロボット聴覚など実環境での利用を指向した小型・高速・頑健な音源分離・雑音抑圧技術
携帯端末の音声入力インタフェースやロボット聴覚を実現するために音源分離・雑音抑圧技術に求められる要件として,1)音声入力デバイスが小型で低計算コストである,2)音源(ユーザ)が多少動いても頑健に動作する,3)指向性・拡散性様々な種類の雑音を同時に抑圧可能である,ことが挙げられる.この3つの要件を同時に満たす音源分離・雑音抑圧技術について検討を行っています.実際に,携帯端末およびロボットに搭載可能なマイクロホンアレイの開発を行い,有効に動作することを確認しています.ロボット聴覚のデモ動画はこちら.
関連文献:
Tetsuji Ogawa, Shintaro Takada, Kenzo Akagiri, and Tetsunori Kobayashi, ``Speech enhancement using a square microphone array in the presence of directional and diffuse noise,’’ IEICE Trans. Fundamentals, vol.E93-EA, no.5, pp.926-935, May 2010. [IEICE] [Scopus]
Kosuke Hosoya, Tetsuji Ogawa, Tetsunori Kobayashi, ``Robot auditory system using head-mounted square microphone array,’’ Proc. 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS2009), pp.2736-2741, Oct. 2009. [DOI] [Scopus][デモ動画]
Naoya Mochiki, Tetsuji Ogawa, Tetsunori Kobayashi, ``Ears of the robot: direction of arrival estimation based on pattern recognition using robot-mounted microphones,’’ IEICE Trans. Inf., & Syst., vol.E91-D, no.5, pp.1522-1530, May 2008. [IEICE] [Scopus]