Taiwanese Text-to-Speech Corpus
References
- Yuan-Fu Liao, Chia-Yu Chang, Hak-Khiam Tiun, Huang-Lan Su, Hui-Lu Khoo, Jane S Tsay, Le-Kun Tan, Peter Kang, Tsun-guan Thiann, Un-Gian Iunn, et al. 2020. Formosa speech recognition challenge 2020 and Taiwanese across Taiwan corpus. In 2020 23rd Conference of the Oriental COCOSDA Inter- national Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA), pages 65–70. IEEE.
- Yuan-Fu Liao, Hui-Lu Khoo, Un-Gian Iunn, Tsun-Guan Thiann, Jane S. Tsay, Le-Kun Tan, Huang-Lan Su, Hak-Khiam Tiun, Peter Kang, Li-Chen Chang, Su-Lian Liao, Hong-Hūi Tân, Siok-Hong Liau and Chhun-Sui Na, et al. 2022. TAIWANESE ACROSS TAIWAN CORPUS AND ITS APPLICATIONS. In 2022 25rd Conference of the Oriental COCOSDA Inter- national Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques (O-COCOSDA), to appear. IEEE.
台文語音合成語料庫
TAT-TTS-M1,-M2,-F1,-F2
by 廖元甫 臺北科技大學
說明(InTroduction)
TAT-TTS為臺北科技大學和李江卻台語文教基金會合作產製之語音合成語料庫,包含台語強勢腔與次強勢腔(漳州腔與泉州腔),各一男一女(TAT-TTS-M1,-M2,-F1,-F2)每人10小時的語料。主要目標是要建置台語語音合成語料庫,作為研發人工智慧之基礎建設,尤其是針對基於深度學習之語音合成研究資料之要求。
上列語料庫已經由臺北科技大學授權社團法人中華民國計算語言學學會發行,申請人需向學會提出申請,簽妥授權使用協議書,並同意確實遵守協議書上之約定條款。
錄音程序(protocol)
在無噪音影響之專業錄音室內依照台羅發音錄製音檔,經由人工校正後產生語料庫。fm,4
語料庫內容(content)
語料庫為台語強勢腔(漳州腔,#1)與次強勢腔(泉州腔,#2),各錄製一男(M)一女(F)兩位語者,每人錄製長度約10小時。
每個音檔均配對一個相同檔名之含有錄音內容以及語者資料的json文檔。
語者資訊(speakers)
編號|性別|年齡|教育程度|出生地|現居地|腔調|
M1|男|34歲|大學|台北市士林區|台北市士林區|偏漳州腔|
M2|男|55歲|大學|新北市汐止區|新北市汐止區|泉州安溪腔|
F1|女|52歲|碩士|高雄市新興區|新北市新店區|漳州腔|
F2|女|41歲|碩士|台中市梧棲區|台北市中正區|泉州腔|
統計資料(statistics)
M1: 總長度約10.4小時,共9625個wav音檔。
M2: 總長度約10.1小時,共11532個wav音檔。
F1: 總長度約10小時,共12917個wav音檔。
F2: 總長度約10.1小時,共12422個wav音檔。
音檔(wav)格式
編號|副檔名|Channels|Sample Rate|Sample Encoding |
M1 | wav. | 1 | 48000 | 24-bit Signed Integer PCM |
M2 | wav | 1 | 48000 | 24-bit Signed Integer PCM |
F1 | wav | 1 | 48000 | 24-bit Signed Integer PCM|
F2 | wav | 1 | 48000 | 24-bit Signed Integer PCM|
Json檔(metadata)格式
{
"音檔長度": "1.96",
"漢羅台文": "若無,就是咱絕種!",
"台羅": "nā-bô,tiō sī lán tse̍rh-tsíng!",
"台羅數字調": "na7-bo5,tio7 si7 lan2 tserh8-tsing2!",
"白話字": "nā-bô,tiō sī lán che̍rh-chéng!",
"字數": "9",
"提示卡編號": "M2_B_57",
"句編號": "M2_B_57-2",
"發音人": "M2",
"性別": "男",
"年齡": "55",
"教育程度": "大學",
"出生地": "新北市汐止區",
"現居地": "新北市汐止區",
"腔調": "泉州安溪腔",
"錄音環境": "專業錄音室",
"提示卡切換速度": "",
"總錄音時間(分)": ""
}
AUDIO/TEXT Samples
TAT-TTS-M1: https://drive.google.com/drive/folders/1cCIeT4Q5o1cKgxI-jzyJuPW6ks9SVuJM?usp=sharing
TAT-TTS-M2: https://drive.google.com/drive/folders/16JWa03V76nAxNDTCFS06tg6RWy0eixhH?usp=sharing
TAT-TTS-F1: https://drive.google.com/drive/folders/1IUZbxPs-v7v1PIO4doGMZtVPxT0mn_m2?usp=sharing
TAT-TTS-F2: https://drive.google.com/drive/folders/1PWKHhV3Kj4_5xli7Ues-den3oF4EWEOf?usp=sharing
Release
GitLab server at https://speech.nchc.org.tw/