以下の課題を実施して、略式レポート(表紙ページは不要)にまとめて提出せよ。E-4は発展課題である.
Labo Aを実行せずに過去の受講者等が収録した音声データを利用してもよいが、その場合はレポートの謝辞として必ず音声提供者の氏名を記載すること.
なお,同一の音声ファイルを用いた結果を提出する場合は連名として提出すること.
大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition)をおこなう.
認識エンジンとして julius を用いる.さらに言語モデルを作成して,認識実験をおこなう.
あらかじめ用意された5000文のテキスト(~/OUSLP/work/mklm/data/news5000.txt)を利用して,
音声認識エンジンJulius用の言語モデルを作成し、その手順を簡潔に説明せよ.
このとき,一般的な言語モデルではなく Julius 用の言語モデルを作成する際に注意すべきことを示しながら説明すること.
第一パスの探索ビーム幅を変化(-b)させて、その認識速度と認識精度の関係性について考察せよ。
ビーム幅の数値や実験する個数は任意とするが、全探索をするオプション(-b 0)の結果は必ず含めること。
(参考:http://julius.sourceforge.jp/juliusbook/ja/desc_search.html#id2541090)
評価データ(10文):
~/OUSLP/work/speech/cmd1/c10[1-5].wav
~/OUSLP/work/speech/novel1/n10[1-5].wav
認識速度は、timeコマンドのユーザCPU時間を利用して10文全ての認識にかかる概算値として計算して良い。
また、timeコマンドを利用する場合、言語モデルや音響モデルなどの読み込み・内部変換処理の時間が、バイアスとして入ってしまうため、
あらかじめstdinを/dev/nullとして実行した結果をバイアス値とみなして関係性を見ると良い。
なお,このE-2ではjulius-fastだけ利用すればよい.
juliusの fastモード(julius-fast)と standardモード(julius-standard)を用いた認識をおこない,その認識速度と認識精度について考察せよ。
a. Juliusのパラメータを調整しない(デフォルトのまま)
b. Juliusのパラメータとして、第一パスの言語重みと挿入ペナルティ(-lmp1)を調整する
c. Juliusのパラメータとして、第二パスの言語重みと挿入ペナルティ(-lmp2)を調整する
(参考:http://julius.sourceforge.jp/juliusbook/ja/desc_search.html#id2540956)
を順に行い、a, b, cの作業により変化した単語認識精度の値について記述し、その考察を行え.