智翰科技‎ > ‎

會議記錄

A&W 4/11 會議記錄

posted Apr 24, 2012, 10:40 AM by 卓楷斌

本周進度:

芫綱
1.LDA取Frame的區間共117維,比較不同特徵組成不同維度降維至39維特徵的辨識效果

哲玄
1.讀PAPER-Keyword Spotting based on the Analysis of Template Matching Distances
2.中文語料也在keyword spotting系統上比較

緒中
1.參考paper:Speaker normalization using efficient frequency warping procedures,加速測試語者的正規化
2.參考同篇paper,直接從filter-bank 做frequency warping

楷斌
1.整理雙語標音單位分類表
2.產生Log Likelihood和Bhattacharyya兩種資料驅動的方法的baseline


未來進度:

芫綱
1.實作合併前後frame的特徵進行高維度的GMM訓練,再利用40個GMM的output vector和MFCC39進行AM,最後再拿這些特徵值進行訓練

哲玄
1.實做PAPER-Keyword Spotting based on the Analysis of Template Matching Distances
2.測試中文唐詩語句

緒中
1.畢業論文相關paper survey

楷斌
1.資料驅動的部分,Tie State的Rule新增以距離算出的混淆音素作為合併的先決條件

A&W 3/14 會議記錄

posted Mar 22, 2012, 2:43 AM by yuankang chuang

卓楷斌
1.新增Chinese QS Rules,實作Tie State2.以Bhattacharyya distance進行分類,測試辨識率

汪緒中
報paper: 老人中文語音辨識初步研究
未來工作:
(1)找paper關於: 如何找warping factor for unknown test speaker s
(2)找paper關於: 用formant找warping factor

莊芫綱
1.timit經過HLDA後,整句辨識率從 81.78% 上升到 85.73%
2.10個音檔,4886筆資料
  mfcc39維經過LDA降維後,在39維時有最高辨識率62.75%
  合併前後特徵共117維經過LDA降維後,在117維有最高辨識率94.47%
  
未來工作:
1.HLDA
2.探討如何結合HMM

周哲玄
1.實做key word spotting

A&W 3/21 會議記錄

posted Mar 22, 2012, 2:42 AM by 汪緒中

楷斌:
1. 測試Cross and Non-Cross Word比較,Non-Cross Word效果較好
2. 分別對中文及英文語料比較中/英Tie State Rule之適用性
3. 擴充語料:中文部分加入MSI語料,但辨識率反而下降

未來進度:
1. 測試以Log Likelihood計算距離之方法,合併最近距離的phone model,測試辨識率
---------------------------------------------------------------------------------

哲玄:
1.實作兩種keyword-spotting 系統並比較

未來工作:
1.增加keyword數並重新比較之
2.利用phone之間的相似度,重新建立penalty matrix並重新比較
---------------------------------------------------------------------------------

芫綱:
1.Baseline 39維經過lda降維後,維度到達39維時,有最高62.91%
合併前後frame的特徵 117維再經過lda降維後,維度到達116時,有最高辨識率67.50%
所以合併前後特徵之後辨識率上升了5%左右
2.在Vowels、Fricatives、Glides、Nasals部分合併前後特徵的辨識率都來的比傳統mfcc39維高這個部分值得再繼續研究

未來工作:
1.合併多一點的特徵去做訓練,再經過HLDA降維,之後做free phone decoding,最後分析phone的辨識率
---------------------------------------------------------------------------------

緒中:
1.碩論方向提議:對所有訓練語者語料做VTLN,並用配合基本模型調適出每個語者的專屬模型,然後測試未知語者時看其接近哪個訓練語者便用其的warping factor進行VTLN然後進行辨識


未來工作:  
1.重新訓練一個baseline model (訓練測試語料重新分配)
2.VTLN先只嘗試分男女兩種warping factor 觀察辨識率情形

A&W 2/22 會議記錄

posted Feb 22, 2012, 2:38 AM by 卓楷斌   [ updated Feb 22, 2012, 2:41 AM by 汪緒中 ]

工作進度:

芫綱:
1. 實作取出每個frame串聯前後39維的Feature,經過LDA降維後測試辨識率

楷斌:
1. 解決新增語料發生的錯誤,改以-p參數,可順利完成訓練
2. 著手中文tie state規則,寫QS並解決不同phone間state共用問題
3. 分析Tie State實作成效,實作

哲玄:
1. 依照論文作法,算出每個phone所被辨識的likelyhood,建立penalty table

緒中:
1. 找VTLN相關研究論文
2. 依照論文"老人中文語音辨識之初步研究"改變VTLN實作方法

未來工作:

芫綱:
1. 試著跑ldaPerfViaKnncLoo,得到每一維度的辨識率來判斷此LDA是否有效
2. 利用HTK的HLDA來實做看看

楷斌:
1. 報告2007長庚大學paper"多語聲學單位分類之最佳化研究"
2. 持續閱讀、實作相關Paper,並構想相關研究方法

哲玄:
1.  實作insertion和deletion的penalty table,進而做出keyword spotting系統

緒中:
1. 報告Timit實作Paper
2.報告VTLN實作結果

A&W 2/8 會議記錄

posted Feb 8, 2012, 1:16 AM by 汪緒中

芫綱
1. TIMIT window size 20ms->25ms 整句辨識率上升0.74%
2. 找到MLP tool:  QuickNet
3. 合併前後一個frame的feature做PCA=> 整句辨識率32.73%

未來工作
1. 跑LDA

==========================================
楷斌
1.在英語模型訓練中,嘗試不同TB數值的Tie Model作法
2.新增中文規則,並且嘗中英合併的tie model實作

未來工作:
1.補上中文tie model和合併後分別測試中英的辨識率
2.Data數夠多,也必須提高mixture數(8,12,16,32…)
3.等到目前訓練的結果方向正確,就可以增加語料(MSI,WSJ)
4.分析兩種語言的特性ex:字的連音Cross or Non-cross Word

==========================================
哲玄
1. 實作two-stage keyword spotting system

未來工作
1.實作三種penalty matrix
2.提高mix數或改penalty讓FMD辨識率提高
3.完成2-stage keyword spotting system

==========================================
緒中:
1.paper報告: Invariant Integration Features Combined with Speaker adaptation methods
未來工作:
1.實作上述paper(使用作者提供的tool)
2.找幾篇與"feature可以幫助改善辨識率" 相關的paper
  Ex: 2009 INTERSPEECH auto-correlation

A&W 2/1 會議紀錄

posted Feb 7, 2012, 11:14 PM by yuankang chuang

工作進度:
楷彬:
1.初步Tie State實作:
English: 訓練EAT,測試Voice Command
Hybrid: 訓練TCC300+EAT,測試Chinese Name+Voice Command
訓練方式:Stream 1/ State 3/ 轉Bi-phone訓練1次後即Tie State

緒中:
1.報告speaker adaptation結果

芫綱:
1.報告paper:Improved Phoneme Recongnition by Integrating Evidence from Spectro-temporal and Cepstral Feature
Lin-shan Lee

哲玄:
這幾週進度為實作上次KEYWORD SPOTTING的內容,目前做到LIKELIHOOD和DP的建表,希望一兩週內可以有個小成果出來

未來工作:
楷彬:
1.研究中英混和的tie model訓練
2.閱讀中英文語音訓練相關的paper

芫綱:
1.尋找有沒有可以不用MLP方式
2.另尋比較容易實做的paper

緒中:
1.報告Paper: Flexible Speaker Adaptation Using Maximum Likelihood Linear 

哲玄:
1.實作key word spotting      


A&W 1/18 會議紀錄

posted Jan 18, 2012, 1:41 AM by 卓楷斌   [ updated Jan 18, 2012, 1:46 AM ]

工作進度:
        哲玄:(1)報告Paper: Phone Mismatch Penalty Matrices for Two-Stage Keyword Spotting via Multi-Pass Phone Recognizer    
        緒中:(1)Adaptation實作方法:每十句調適一次,和Lambert討論測試結果
        芫綱:(1)流感請假
      楷斌:(1)修正先前混和模型辨識英文的錯誤-修改12/28實驗結果
                     (2)survey papers about the multilingual acoustic model

未來工作:
        哲玄: (1)實作key word spotting      
        緒中: (1)實作Lambert的調適方式
                       (2)報告Paper: Flexible Speaker Adaptation Using Maximum Likelihood Linear Regression
        芫綱: 預定報告有關Gabor Filter修正feature使辨識率改進的paper
      楷斌: (1)研究中文以及中英混和的tie model方式
                   (2)閱讀中英文語音訓練相關的paper

A&W 1/4 會議紀錄

posted Jan 11, 2012, 1:28 AM by 汪緒中   [ updated Jan 11, 2012, 2:29 AM ]

工作進度:
        哲玄: 無
        緒中:(1)paper 報告 -  
                           Unsupervised Acoustic Model Adaptation for Multi-Origin Non Native ASR
        芫綱:無
        楷斌:(1)實作中英文混和語音模型
          Training: TCC300(23.32hrs) + EAT_Mic_Total(about 50hrs) 
          Testing: chinese name(1.71hrs)+voice command(5.84hrs)
          分析Iteration數、原始model和hybrid後的辨識率差異:
          Hybrid後,辨識率改進程度會比原本的更高
          Hybrid後,Mono-phone辨識率比Bi-phone改善得更顯著
         
          Mono-phone轉換成Bi-phone時辨識率應該上升,但當Iteration數增加時, 
          Mono- phone比較Bi-phone時辨識率卻下降,代表當變成Bi-phone時,
          資料參數太多,訓練時發生overtraining
          結論:需要增加語料,但在新增語料前必須先找出訓練上的錯誤


未來工作:
        哲玄: 無        
        緒中:(1)處理實作循序調適時遇到的問題
        芫綱:(1)跟阿諾直接拿gabor filter直接做作看
                (2)實做MFCC+LDA
     楷斌:(1)由於英文的辨識率很低,和芫綱比對找出訓練上的錯誤                  (2)報告Multistream Multiresolution Framework的paper

A&W 1/11 會議紀錄

posted Jan 11, 2012, 1:20 AM by 周哲玄   [ updated Jan 11, 2012, 1:50 AM by 汪緒中 ]

緒中:
(1)incremental adaptation 每次的transform matrix 都沒有改變 => 因為每次對一句語料調適,如果沒有超過1000 frame,transform matrix 就不會改變
(2)嘗試每次都更新macro,但是更新一次後的macro拿來做第二次HERest建立 rc transform 時就會有問題 => HERest 出錯,無顯示HTK Error Message

未來工作:

(1) 原本想說在語料前後加silence 增加frame個數,但是Lambert 測試辨識效果會變差,所以改其他方向著手
(2) 先了解產生的mllr1 參數的意義,並了解adaptation指改變mean還是連variance也會改變
(3)請教該篇paper作者sequential adaptation 是怎麼做到小於1000 frame也可以做adaptation

芫綱:
(1)訓練語料EAT測試語料VOICE COMMAND
   CMU字典檔與SAMPA字典檔之比較,辨識率無較大差別,SAMPA拼音為可用(訓練六次,MIXTURE12)
   SAMPA 辨識率92.72%(MIXTURE12)

(2)訓練語料與測試語料皆為TIMIT
   經過GABOR FILTER其辨識率提高,但測試VOICE COMMAND其辨識率不佳


未來工作:
(1)查詢為何經過GABOR FILTER其辨識率會變高
(2)將PAPER與MLP相關實作

楷斌:
(1)報告A Multistream Multiresolution Framework for Phoneme Recognition Nima Mesgarani PAPER

未來工作:
(1)與阿諾討論PAPER,實行未來進度。

哲玄:
本週無進度

未來工作:
報告Phone Mismatch Penalty Matrices for Two-Stage Keyword Spotting via Multi-Pass Phone Recognizer PAPER

A&W 12/28 會議紀錄

posted Jan 3, 2012, 11:43 PM by yuankang chuang   [ updated Jan 11, 2012, 1:52 AM by 汪緒中 ]

楷斌:
1.訓練中英文混和模型
2.測試語料改成中文姓名以及英文voice command
3.比較stream1/stream3以及mixture1-6/mixture1-12的辨識率

緒中:
(1)single stream model 改進:  state 從1改成3  =>  96.23% -> 97.76%  (mixture No. 都是 28)

(2)以連續調適一句句模擬一次調適複數句子:  
調適前:Corr=60.94, Acc=60.73
調適後:Corr=29.92Acc=28.89

研究為何這麼低分?transform matrix 是否有問題?

哲玄:
報告ked word spotting

芫綱:
本週無進度

未來進度
楷斌:
報告paper

緒中:
single stream model 改進 - 將每次mixture up後的訓練次數從2增加到5次
報paper  - Unsupervised Acoustic Model Adaptation for Multi-Origin Non Native ASR

哲玄:
報告key word spotting paper

芫綱:
報告feature extraction paper

1-10 of 12