以下の課題を実施して、略式レポート(表紙ページは不要)にまとめて提出せよ。D-4は発展課題である。
Labo Aを実行せずに過去の受講者等が収録した音声データを利用してもよいが、その場合はレポートの謝辞として必ず音声提供者の氏名を記載すること.
なお,同一の音声ファイルを用いた結果を提出する場合は連名として提出すること.
音声認識に必要な音響モデルの構築をおこなう.音響モデルとしてはGMM-HMMの構築をおこなう.
孤立単語音響モデルにおいては1つの数字の音声認識をおこなう.
サブワード音響モデルでは簡単な文法も作成して,短いコマンド文発声を音声認識できるようにする.
単語毎に3つの音声ファイルを学習データとして利用し、学習データ以外の音声ファイル2つを評価用データとして利用する。
学習データ:
~/OUSLP/work/speech/digit/d1-[0-9].wav
~/OUSLP/work/speech/digit/d2-[0-9].wav
~/OUSLP/work/speech/digit/d3-[0-9].wav
評価データ:
~/OUSLP/work/speech/digit/d4-[0-9].wav
~/OUSLP/work/speech/digit/d5-[0-9].wav
(1) ZEROからKYUの計10単語用に単語HMMを作成し、単語音声認識を行うための手順の概要を説明せよ。
なお、最終的な実行結果として、認識率と混同行列を必ず記載すること。
(2) 学習データと評価データそれぞれの群に対する認識率について考察せよ。
なお、認識率が全て100%で全く違いがない場合は、起こりうる問題や状況を想定して述べても良い。
学習データ(50文):
~/OUSLP/work/speech/balance/a01.wav ~ ~/OUSLP/work/speech/balance/a50.wav
評価データ(D-1と同じ):
~/OUSLP/work/speech/digit/d4-[0-9].wav
~/OUSLP/work/speech/digit/d5-[0-9].wav
(1) 音素単位のサブワードHMMを作成して、その学習手順を簡潔に説明せよ。
モデルの学習条件は以下を基本とするが、適宜変更しても構わない。
- 学習データ50文を学習データとして5状態(中心3状態)のleft-to-right HMMを学習
- HMM間の状態共有を行い全状態数を200状態に削減
- 学習 <-> 混合数増加を繰り返して、200状態4混合のモデルを作成
(2) D-1で作成したモデルの認識結果と比較、考察せよ。
認識率が全て100%で全く違いがない場合は、起こりうる問題や状況を想定して述べても良い。
評価データ(5文):
~/OUSLP/work/speech/cmd1/c10[1-5].wav
(1) コマンド文を受理する文法を作成して、D-2で作成した音響モデルによる音声認識を実行して、認識率を計算せよ。
(2) 認識結果についての考察を行え。
適応元のモデル:
~/OUSLP/work/recog_shop/base_am/*
学習[適応]データ(D-2と同じ):
~/OUSLP/work/speech/balance/a01.wav ~ ~/OUSLP/work/speech/balance/a50.wav
評価データ(5文):
~/OUSLP/work/speech/cmd1/c10[1-5].wav
(1) 適応元のモデルを利用して、学習データに適応したHMM音響モデルを作成して、その学習手順を簡潔に説明せよ。
適応有りモデルの学習条件は以下を基本とするが、適宜変更しても構わない。
- 適応元モデルに学習データ50文を適応データとしてHMMをMLLR適応
- 適応元モデルは200状態4混合
(2) 適応元モデル、D-2で作成した学習モデル、D-4で作成した適応モデルの合計3つの音響モデルについて、その認識率を比較して考察を述べよ。