発話区間検出と音声認識の統合(2021年)

Development of End-to-end Automatic Speech Recognition

深層学習を用いたEnd-to-end音声認識の研究を行っています。本ページでは、音声認識モデル(ASR)と発話区間検出(VAD)の統合を試みた研究事例を紹介します。


実際のアプリケーションでは、音声認識モデルだけではシステムとして成立しないため、図に示すように複数の機能ブロックが必要になります。

例えば、音声がストリーミングに入力されるアプリケーションの場合、無音区間や雑音区間を含むため、いつ発話が開始されるのかという発話区間の検出が必要になります。

このように、実際のアプリケーションでは、複数の技術を組み合わせて使うことが必要になりますが、このようなカスケードの機能統合は誤差蓄積やシステムの複雑性向上を招くこととなります。

そこで、音声認識と発話区間検出の統合を試みました。


まず、発話区間検出の詳細を説明いたします。

次の図に示すように、ストリーミング音声には、音声だけでなく無音区間や雑音区間などが多く含まれるので、発話区間検出モジュールを用いて音声区間のみを抽出する必要があります。そして、抽出された音声信号のみを音声認識モデルに入力することによって、ストリーミング音声認識を実現しています。


しかし、このようなカスケード構造は誤差の蓄積やシステムの複雑化を招く可能性があります。

そこで、次の図に示すように、発話区間検出と音声認識の統合手法を提案しました。

緑で示す部分が従来の音声認識モデルを表しておりますが、従来の音声認識モデルは、ストリーミング音声を入力することができません。

そこで、音声認識モデルの一部を共有し、青で示すように発話区間検出ブランチを中間に追加しました。

このようなネットワーク構造にすることにより、ストリーミング音声から発話区間を切り出しながら発話部分だけを認識することができます。

次の図は、文字誤り率(CER)とリアルタイムファクター(RTF)という計算コストを表す評価結果を示しています。

提案手法はベースラインと比べ、CERと計算速度の両方を削減することができました。

提案手法では、適切に音声以外の区間を捨てることができるため、計算量削減と性能向上を同時に実現しています。

 国際学会 / Peer reviewed conference paper

講演 / Tech talk

ニュース / Press