National Education Radio Corpus
National Education Radio (NER) corpus is a Large-Scale database of Real-Life/Multi-Gene/Taiwanese Spontaneous Speech Collected and Transcribed from various sources.
教育電台廣播節目語音語料庫 (3200 hours)
此語料庫語音語料庫的原始語音資料來源,是由國立教育廣播電臺所提供的節目音檔。依錄音環境,分為兩類,包括電台錄音室內錄製,無任何背景襯樂或非人聲噪音的『核心語料』,總計約1218.34小時、共1907個檔案;與非錄音室內錄製,或有任何背景襯樂,或非人聲噪音的『非核心語料』,總計約3939.93小時、共4751個檔案。兩者音檔合計約5128.87小時、共6658個檔案數。
此原始語音語料,經由臺北科技大學中英夾雜大字彙語音逐字稿轉寫系統(此系統之內部測試字元錯誤率為9.2%),自動轉寫出音檔逐字稿。再經由兩次人工校正後,整理成可供語音辨認使用之語音語料庫。目前共完成『核心語料』總計約624.71小時、共89908個檔案;『非核心語料』總計約2561.07小時、共400495個檔案;『合計約3185.78小時、共4904031個檔案數』。並以一集約150小時語音語料方式,切分成21集,包括:
NER-Trs-Vol1~17 (語音辨認器先自動產生逐字稿, 2600 hours)
NER-Pro-Vol1~4 (專業聽打員先聽打逐字稿, 600 hours)
上列語料庫已經由臺北科技大學授權社團法人中華民國計算語言學學會發行,申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。
Sources
National Education Radio (NER) - 2781 radio shows
Public Television Service (PTS) - TV shows, 2333 hours
National Chiao Tung University (NCTU) - open courseware, 154 course
National ChengChi University (NCCU) - open courseware, 393.8 hours
Junyi Academy - 408.7 hours
Audio/Text Samples
Release
GitLab server at https://speech.nchc.org.tw/