話者認識は,入力された音声信号に対して「誰が話しているか」を推定する技術です.「誰がいつ話しているか」を推定する技術は話者クラスタリングとも呼ばれます.パターン認識・機械学習技術を活用して基本技術の開発・拡張を行っています.
クラウドソーシングを利活用して話者照合を高精度化する方法論について研究を行っています.
話者認識システムを容易に構築するための音声データに対する効率的なアノテーションや,話者照合システムの結果の信頼性向上を目的として,クラウドソーシングを利活用する方法論について検討を行っています.本研究は,Amazon Mechanical Turk上でクラウドソーシングを利活用するためのフレームワーク Tutti を用いています.
関連文献:
Yuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa, ``Can humans correct errors from system? Investigating error tendencies in speaker identification using crowdsourcing,'' Proc. The 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH2022), Sept. 2022. [DOI] [Scopus](話者照合システムの予測結果のうち信頼性が低いものをクラウドワーカが検証することで話者照合性能を改善する)
Susumu Saito, Yuta Ide, Teppei Nakano, Tetsuji Ogawa, ``VocalTurk: Exploring feasibility of crowdsourced speaker identification,'' Proc. The 22th Annual Conference of the International Speech Communication Association (INTERSPEECH2021), pp.1723-1727, Aug. 2021. [DOI] [Scopus](クラウドワーカーによる回答の正確性の検証,および正確なラベリングを支援するマイクロタスクUI設計の検討)
発話内容に関する情報と発話者に関する情報といった複雑に混ざり合った情報を分離・抽出する技術について研究を行っています.
音声は発話者(誰が話しているか)に加えて発話内容(何を話しているか)の情報も含みます.一般的に,音声認識(発話内容の認識)は発話者の違いに頑健ではなく,逆に発話者の認識は発話内容の違いに頑健ではありません.そこで,発話内容に関する情報と発話者に関する情報といった複雑に混ざり合った情報を分離・抽出する技術を開発することで,短い発話からでも発話者の認識・照合を可能とすることを目指します.
関連文献:
Naohiro Tawara, Atsunori Ogawa, Tomoharu Iwata, Marc Delcroix, Tetsuji Ogawa, ``Frame-level phoneme-invariant speaker embedding for text-independent speaker recognition on extremely short utterances,'' Proc. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020), pp.6799-6803, May 2020. [DOI] [Scopus]
関連文献:
Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Atsushi Nakamura, Tetsunori Kobayashi, ``A sampling-based speaker clustering using utterance-oriented Dirichlet process mixture model and its evaluation on large-scale data,’’ APSIPA Trans. Signal & Info. Process., vol.4, Oct. 2015. [DOI] [Scopus](フルベイズアプローチによる階層的モデリング)
Naohiro Tawara, Tetsuji Ogawa, Tetsunori Kobayashi, ``A comparative study of spectral clustering for i-vector-based speaker clustering under noisy conditions,’’ Proc. ICASSP2015, pp.2041-2045, April 2015. [DOI] [Scopus](雑音に頑健なセグメントクラスタリング)