山本 克彦

博士 (工学

株式会社サイバーエージェント AI Lab、リサーチサイエンティスト

My CV is HERE.

E-mail

yamamoto_katsuhiko(at)cyberagent.co.jp

職歴

  • 2023-現在 株式会社サイバーエージェント AI Lab、リサーチサイエンティスト

  • 2019-2022 トヨタ自動車株式会社、エンジニア

  • 2017-2019 独立行政法人日本学術振興会、 特別研究員 (DC2)

学歴

  • 2015-2019 和歌山大学 システム工学研究科 博士後期課程

  • 2013-2015 北陸先端科学技術大学院大学 情報科学研究科 博士前期課程

  • 2011-2013 神戸市立工業高等専門学校 専攻科 電気電子工学専攻

  • 2006-2011 神戸市立工業高等専門学校 電気工学科

所属学会

  • 日本音響学会

研究テーマ

聴覚モデルを用いた音声了解度予測法(博士後期課程)
音声信号処理の分野において,人間の聴取実験の結果に対応した,音声の客観的評価指標の開発は重要な研究課題の一つです.音声の明瞭性の客観的評価指標として,STI や SIIと呼ばれる指標が国際規格として推奨されていますが,雑音抑圧処理に用いられる非線形な信号処理手法には対応していません.多くの先行研究では,音声の分析過程で得られる様々な特徴に注目して予測精度の改善を目指していますが,人間の聴覚系での信号処理過程を十分に反映できていませんでした.客観評価指標に人間の聴覚系の計算モデルを組み込むことにより,難聴者の聴覚特性も反映可能になることが期待できます.
本研究では,人間の聴覚末梢系に含まれる非線形特性を反映させた,動的圧縮型ガンマチャープ (dcGC) フィルタバンクと呼ばれる聴覚フィルタバンクを用いた音声了解度予測法 (dcGC-sEPSM) を提案しました.この dcGC フィルタバンクの後段は,周波数分割された狭帯域信号の時間的な振幅包絡に含まれる音声情報を詳細に分析できる変調フィルタバンクが搭載されています.この出力から得られる時間的な変動パワーから,振幅包絡上の信号対雑音比(SNRenv)を計算し,この値を音声了解度に変換します.さらに,この SNRenvを信号対歪み比(SDRenv)に置き換えることにより,dcGC-sEPSM をさらに使いやすくした新しい音声了解度予測法(GEDI)を提案しました.その後,時間的に非定常な雑音条件下で強調音声の了解度を予測可能な,多重時間解像度版 GEDI(mr-GEDI)に拡張しました.mr-GEDI では,変調フィルタバンクの出力を時間波形として抽出し,変調フィルタの中心変調周波数に依存した短時間フレームごとの振幅包絡パワーを計算することで,SDRenv を算出します.
これらの提案手法の妥当性を評価するために,聴取実験データ(真値)が必要となります.はじめに古典的なスペクトル減算法や最新のウィナーフィルタ型の雑音抑圧法を,ピンク雑音およびバブル雑音条件下の音声に適用した強調音声を用いた聴取実験を実施しました.次に,同じ強調音声を提案手法で評価し,聴取実験と同様の結果が得られるかを検証しました.結果として,両条件下において,mr-GEDI が主観評価の結果の傾向を正しく予測することができました.これにより,本研究で提案した客観評価指標の中で,mr-GEDIが最も実用性の高い客観評価指標であることが示されました.
本研究の成果により,聴覚モデル群の出力から計算される SDRenv と呼ばれる新たなアルゴリズムが音声了解度の客観評価に使用可能であることが分かりました.今後の課題として,音声了解度の予測精度を向上させるために,入力信号のレベル関係を適切に定義することや,聴覚計算理論に基づいた他の音響特徴量の検討などが挙げられます.さらに,本研究で提案した客観評価指標を応用することで,将来的には難聴者を対象とした音声了解度予測,音声品質の客観評価指標への拡張,雑音抑圧処理手法のパラメータ最適化,補聴器をはじめとした聴覚補助機器のフィッティング最適化への貢献が期待できます.

骨導音知覚特性に関する調査研究(修士課程 課題研究)
気導音が空気中を伝搬して外耳・中耳を経由して内耳に到達し知覚される音であるのに対して,骨導音は頭蓋骨の振動を介して内耳に到達し知覚される音です.骨導は気導とは異なる音の伝達経路を持つため,伝音性難聴者のための骨導補聴器や高騒音環境下でもコミュニケーションが可能な骨導ヘッドホンなど,工学的に幅広く利用されています.しかし,骨導音の伝達過程は非常に複雑であるため,ヒトの骨導音知覚メカニズムの全容は未だに明らかにされていません.本調査研究では,頭蓋骨や聴覚器の物理的振動を数値解析的に模擬するのではなく,骨導音の伝達経路をそれぞれ「周波数特性を持つ伝達システム(サブシステム)」として注目する方法を検討しました.この伝達システムの周波数(振幅・位相特性を議論することにより,骨導音知覚メカニズムを解明するための手がかりを得ることができるのではないかと考えました.本研究の特徴は,骨導音の伝達経路をそれぞれ伝達システムとして注目し,気導音知覚と骨導音知覚の関係性を深く議論することで,骨導音がどのようなメカニズムで知覚されているのかを明らかにすることです.
はじめに,骨導音はどのような伝達経路を経由して知覚されると考えられているのか,またその伝達特性はどの程度調べられているのかを明らかにするために,生理学的アプローチによって骨導の振動特性を計測した既存研究について調査を行いました.次に,骨導音の知覚特性についてどの程度調べられているのかを明らかにするために,心理物理学的アプローチによって骨導音の知覚特性を測定した既存研究について調査しました.上記の二つのアプローチに関する研究をまとめた結果,骨導における内耳以降の伝達メカニズムや知覚との関係性については未だ明らかになってないことがわかりました.さらに,骨導音知覚においては,振幅特性(音の大きさ)についての検証は多く行われているものの,位相変化に対する知覚特性については調査が少ないことがわかりました.これらの点を踏まえ,著者は骨導音知覚メカニズムをより明確にするためのアプローチとして,骨導音伝達時の位相特性に注目し,位相特性の変化に対する知覚特性を気道音の知覚特性と比較することにより,内耳以降の伝達経路における知覚特性および伝達経路メカニズムを推定できる可能性があることを論文としてまとめました.

音韻修復に着目した半開示音声スクランブル法(修士課程 サブ研究)
音声情報を暗号・秘匿化する技術の代表的な手法として,音声スクランブル法が挙げられます.しかし,音声スクランブル法では音声信号全体を暗号化するため,スクランブル後は内容の一部分の確認さえできなくなってしまいます.半開示音声スクランブル法は,対象のコンテンツに概要が確認できる程度の暗号化処理を行う手法であり,これはオリジナルコンテンツの著作権保護に役立ちます.原信号を周波数領域に変換し,その信号の一係数を暗号化する手法が提案されています.しかし,これらの手法では,半開示音声スクランブル処理を解除したときに完全に原信号に戻すことができるか疑問が残ります.半開示音声スクランブル法によりオリジナルコンテンツの著作権保護を行うことができても,原信号を完全に復元することができなければ,コンテンツの価値を大きく下げてしまう可能性があります.以上で指摘した問題点を踏まえて,本研究ではヒトの音知覚現象の一つである音韻修復現象(連続聴効果)に着目し,時間領域上で半開示音声スクランブルを行う手法を提案しました.音声スクランブル処理の手法については,原信号を完全に復元するために,著者らが以前に提案した手法を適用しました.
本研究では,オリジナルコンテンツの著作権保護と完全な復元を可能とする半開示音声スクランブル法を完成させることを目的として,本提案手法の客観的評価を行いました.また,音楽データへの応用を検討し,同様の客観的評価を行いました.さらに,音声スクランブル法と音韻修復現象との関連性を調査するために,スクランブルされた音声信号の音響特性を調査しました.一連の客観的評価の結果から,提案手法によって半開示音声スクランブル信号が原信号へと完全に復元されることを確認しました.また,音響特性の調査によって音声スクランブル法によって生成される音声スクランブル信号がガウス性白色雑音あることが示されました.これにより,半開示音声スクランブル法が,音声信号および音楽データの半開示化に適用できることが示されました.


騒音環境下における骨導超音波補聴器の明瞭度の改善(高専専攻科 卒業研究)
超音波を音声で振幅変調して骨導で呈示(骨導超音波)することにより,重度感音性難聴者でも複数の単語を区別して知覚できる場合があることが報告されています.先行研究では,骨導超音波知覚の生理学・心理学的特性を明らかにした上で,それらの成果を生かした骨導超音波補聴器の開発に取り組んできました.しかし,これまでに騒音環境下の聞き取りについては客観的な評価は行われていませんでした.骨導超音波補聴器の実用化に向けては,騒音を付加した状態での明瞭度評価および騒音除去技術の適用が必要となります.
以上で指摘した問題点を踏まえて,現在開発中の骨導超音波補聴器において,騒音環境を想定した模擬音源を用いた語音の明瞭度評価を行うことを提案しました.さらに,騒音を除去する手段としてマイクロホンアレイを骨導超音波補聴器に導入することを提案し,明瞭度の改善を試みました. 本研究では,騒音環境下における骨導超音波補聴器の聴取特性の評価を定量的に行うこと,そして,骨導超音波補聴器の明瞭度を向上させるための騒音除去システムを提案することを目的としました.
まず,マイクロホンアレイの本数やサイズを変化させて明瞭度評価を行い,マイクロホンアレイの設計仕様を決定しました.次にS/N比を変化させて同様の明瞭度評価を行い,提案した騒音除去システムの有用性を検証しました.
結果として,騒音環境下における骨導超音波補聴器の各S/N比に対する明瞭度分布が,気導音呈示の明瞭度曲線と同様のなだらかな明瞭度曲線を示すことがわかりました.また,本研究で提案したマイクロホンアレイを用いたときの明瞭度分布と従来の単一マイクロホン時の明瞭度分布を比較した結果,騒音環境下における明瞭度が3~6 dB改善することを確認しました.このことから,骨導超音波補聴器の明瞭度の改善にマイクロホンアレイを用いることの有用性が示されました.

発表業績

  • 原著論文

    • K. Yamamoto, T. Irino, S. Araki, K. Kinoshita, and T. Nakatani, "GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech,'' Speech Communication, Vol. 123, pp. 43-58, 2020. [Paper]

    • K. Yamamoto, T. Irino, S. Araki, K. Kinoshita, and T. Nakatani, “Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions, ” Acoustical Letter, Acoustical Society of Japan, Vol. 41, Issue 1, pp. 396-399. [Paper]

    • K. Yamamoto, T. Irino, T. Matsui, S. Araki, K. Kinoshita, and T. Nakatani, “Speech intelligibility prediction with the dynamic compressive gammachirp filterbank and modulation power spectrum,” Acoustical Science and Technology, Vol. 40, No. 2, pp. 84-92, March 2019. [Paper]

    • K. Yamamoto, Z. Zhu, M. Unoki, and N. Aoki, "Study on Semi-Scramble Method for Speech Signals Based on Phonemic Restoration," Journal of Signal Processing, Research Institute of Signal Processing Japan, Vol.18, No.4 Special Issue on Papers Awarded the Student Paper Award at NCSP'14, pp. 205-208, July 2014. [Paper]

    • Z. Zhu, K. Yamamoto, M. Unoki and N. Aoki, "Study on Scramble Method for Speech Signal by Using Random-Bit Shift of Quantization," Journal of Signal Processing, Research Institute of Signal Processing Japan, Vol.18, No.6 Special Issue on Nonlinear Circuits, Communications and Signal Processing, pp. 303-307, November 2014. [Paper]

  • 国際会議, 査読有り, 口頭発表

    • Yamamoto, K., Irino, T., Araki, S., Kinoshita, K., Nakatani, T. (2018) "Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions." Proc. Seminar on brain, hearing and speech sciences for universal speech communication/Universal Symposium on Universal Acoustical Communication 2018 (UAC2018).

    • Yamamoto, K., Irino, T., Ohashi, N., Araki, S., Kinoshita, K., Nakatani, T. (2018) Multi-resolution Gammachirp Envelope Distortion Index for Intelligibility Prediction of Noisy Speech. Proc. Interspeech 2018, 1863-1867, DOI: 10.21437/Interspeech.2018-1291 [採択率: 約50%] [Paper]

    • K. Yamamoto, T. Irino, T. Matsui, S. Araki, K. Kinoshita and T. Nakatani, “Speech intelligibility prediction based on the envelope power spectrum model with the dynamic compressive gammachirp auditory filterbank,” In Proceedings of Interspeech 2016, pp. 2885 - 2889, Hyatt Regency, San Francisco, USA, 8–12 September 2016, [採択率: 約50%]. [Paper]

  • 国際会議, 査読有り, ポスター発表

    • K. Arai, S. Araki, A. Ogawa, K. Kinoshita, T. Nakatani, K. Yamamoto, and T. Irino (2019) "Predicting Speech Intelligibility of Enhanced Speech Using Phone Accuracy of DNN-based ASR Systems," in Proc. Interspeech 2019, pp. 4275 - 4279. [The overall acceptance rate was about 50%] [Paper]

    • Yamamoto, K., Irino, T., Matsui, T., Araki, S., Kinoshita, K., Nakatani, T. (2017) Predicting Speech Intelligibility Using a Gammachirp Envelope Distortion Index Based on the Signal-to-Distortion Ratio. Proc. Interspeech 2017, 2949 - 2953, DOI: 10.21437/Interspeech.2017-170 [採択率: 約50%]. [Paper].

  • 国際会議, 査読無し, 口頭発表

    • K. Yamamoto, T. Irino, T. Matsui, S. Araki, K. Kinoshita and T. Nakatani, “Study on predicting speech intelligibility of enhanced speech sounds using the dynamic compressive gammachirp auditory filterbank and modulation filterbank,” presented at Taiwan/Japan Joint Auditory Research Meeting, National Tsing Hua University, Taiwan, 23–24 Oct. 2015.

    • Yamamoto, K., Zhu, Z., Unoki and M., Aoki, N., "Study on Semi-Scramble Method for Speech Signals Based on Phonemic Restoration," 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM2-2-1, pp. 201-204, Honolulu, Hawaii, USA, 1-3, March 2014, [Student Paper Award 受賞].

    • Zhu, Z., Yamamoto, K., Unoki and M., Aoki, N., "Study on scramble method for speech signal by using random-bit shift of quantization," 2014 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, 1PM1-2-2, pp. 109-102, Honolulu, Hawaii, USA, 1-3, March 2014.

  • 国際会議, 査読無し, ポスター発表

    • K. Yamamoto, T. Irino, T. Matsui, S. Araki, K. Kinoshita and T. Nakatani (2016), “Analysis of acoustic features for speech intelligibility prediction models,” in Proceedings of 5th Joint Meeting of the ASA/ASJ, Journal of the Acoustical Society America, Vol. 140, No. 4, Pt. 2, p. 3114, October 2016.

  • 国内会議, 査読無し, 口頭発表

    • 高木 信二, 倉田 岳人, 郡山 知樹, 塩田 さやか, 鈴木 雅之, 玉森 聡, 俵 直弘, 中鹿 亘, 福田 隆, 増村 亮, 森勢 将雅, 山岸 順一, 山本 克彦, "国際会議Interspeech2017報告,” Vol.2018-MUS-118 No.14/Vol.2018-SLP-120 No.14, pp. 1-9, February 2018. [Slides]

    • 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広, “変調スペクトル領域の信号対歪み比に基づく音声明瞭度予測法の提案,” 電子情報通信学会 第35回信号処理シンポジウム予稿, B8-4, pp. 372–377, 8–10 November 2017.

    • 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広, “動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法の改良,” 日本音響学会聴覚研究会資料, Vol.46, No.1, H-2016-9, pp. 35–40, 那覇市 IT 創造館, 沖縄, 20–21 February 2016.

    • 山本克彦, 朱治, 鵜木祐史, 青木直史, "音韻修復現象に着目した音声半開示スクランブル法," マルチメディア情報ハイディング・エンリッチメント研究会 (EMM), 信学技法, Vol. 113, No. 290, pp. 59-64, 13-14, November 2013.

    • 山本克彦, 朱治, 鵜木祐史, 青木直史, "音韻修復現象に着目した音声半開示スクランブル法," 平成25年度電気関係学会北陸支部連合大会, G-18, 21-22, September 2013, [音響部門優秀発表賞 受賞].

    • 朱治, 山本克彦, 鵜木祐史, 青木直史, "量子化ビットスクランブルを用いた音声スクランブル法," 平成25年度電気関係学会北陸支部連合大会, G-17, 21-22, September 2013.

  • 国内会議, 査読無し, ポスター発表

    • 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, "複数の雑音条件下における共通パラメータを用いた音声了解度予測, ” 日本音響学会:研究発表会講演論文集, 3-P-42, pp. 897-898, 大分大学, 大分, 12-14, September 2018.

    • 大橋成美, 余村直子, 山本克彦, 荒木章子, 木下慶介, 中谷智広, 入野俊夫, "バブル雑音重畳と強調処理された音声の模擬難聴下における了解度, ” 信学技報, vol. 117, no. 517, SP2017-99, pp. 87-92, March 2018.

    • 山本克彦, 大橋成美, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, "振幅包絡歪み指標に基づくバブル雑音下の音声明瞭度予測, ” 日本音響学会:研究発表会講演論文集, 3-P-7, pp. 1305-1308, 日本工業大学, 埼玉, 13–15 March 2018.

    • 大橋成美, 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, "雑音抑圧で音声は聴き取りやすくなる?ーバブルvsピンク, お邪魔勝負ー, ” 日本音響学会関西支部, 第20回関西支部若手研究者交流研究発表会発表概要週, p.10, #19, 同志社大学 同志社ローム記念館, 京都, 16 December 2017.

    • 吉田駿,山本克彦,松井淑恵,西村竜一,入野俊夫,”難聴者に聞こえやすい音声特徴 〜模擬難聴を用いた音声の振幅包絡変調分析〜,” 日本音響学会関西支部, 第19回関西支部若手研究者交流研究発表会, #44, 関西 大学100周年記念会館, 大阪, 18 December 2016, ポスター発表, [奨励賞 受賞].

    • 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, “音声明瞭度予測法 dcGC-sEPSM の諸検討: 評価用雑音の特性と予測精度への影響,” 日本音響学会:研究発表会講演論文集, 2-P-44, pp. 663-666, 富山大, 富山, 14–16 September 2016.

    • 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広, “動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法:強調音声を対象とした比較検討,” 情報処理学会, 音学シンポジウム2016 (第111回 音楽情報科学研究会), Vol. 2016-MUS-111, 情報処理学会研究報告,No.20, 東海大学高輪キャンパス, 東京, 21–22 May 2016.

    • 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, “強調音声のための明瞭度予測法の検証:聴取実験結果との比較,” 日本音響学会:春季研究発表会講演論文集, 2-P-23, pp. 823-826, 桐蔭横浜大, 横浜, 9–11 March 2016.

    • 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広, “強調音声の明瞭度 -計算機は人の聞こえを予測できる?-,” 日本音響学会関西支部, 第18回関西支部若手研究者交流研究発表会, #42, 関西 大学 100 周年記念会館, 大阪, 13 December 2015, [最優秀奨励賞 受賞].

    • 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広, “動的圧縮型ガンマチャープフィルタバンクを用いた強調音声の明瞭度予測法の提案,” 日本音響学会:秋季研究発表会講演論文集, 2-P-36, pp. 473-474, 会津大, 会津若松, 16–18 September 2015, [学生優秀発表賞 受賞].

    • 朱治, 山本克彦, 鵜木祐史, 青木直史, "量子化ビットスクランブルを用いた音声スクランブル法," マルチメディア情報ハイディング・エンリッチメント研究会 (EMM), 信学技法, Vol. 113, No. 480, pp. 57-62, 7-8, March, 2014.

    • 山本克彦, 長谷芳樹, "騒音環境下での骨導超音波補聴器の頑健性, " 日本音響学会関西支部 第 15 回若手研究者交流研究発表会 講演概要集 , p.7, December 2012, [優秀奨励賞・特別賞 受賞].

    • 山本克彦, 長谷芳樹, "マイクロホンアレイによる骨導超音波補聴器の明瞭度の改善," 日本音響学会 聴覚研究会資料, Vol.4, pp.537-542, September 2012.

  • 招待講演

    • 山本克彦, "研究をはじめてから国際会議と学術論文に採択されるまで, ” 音響学会2019年春季研究発表会ビギナーズセミナー「論文執筆は怖くない -学術論文採録への挑戦-」, 電気通信大学, 東京, 5, March 2019. [Slides]

ソフトウェア

インターンシップ活動歴

  • デンマーク工科大学 Hearing Systems(2017年8月〜9月)

  • 北陸先端科学技術大学院大学 情報科学研究科 音情報科学研究室(2012年4月)

  • パナソニックヘルスケア株式会社 補聴器部門(2011年8月)

TA/RA歴

  • サウンドプログラミング演習TA(2016年10月〜2017年2月)

  • 研究プロジェクトRA(2015年5月〜2018年2月)

受賞・奨学金免除歴