JTubespeech-ASV: Japanese speech corpus for automatic speaker verification / 日本語話者照合用コーパス
Download / ダウンロード
Data (zip file, 8.9 GB)
Description / 内容
This is a speech corpus for automatic speaker verification, mainly Japanese speech, collected from YouTube videos. The corpus specifications are as follows.
Duration: 484 hours(subset: 245 hours)
Sampling frequency: 16 kHz
Audio format: mp3
File name format:
train data: `{speaker ID}_{utterance ID}`.mp3
test data: `{enrollment speaker ID}_{session ID}_{utterance ID}`.mp3
`{speaker ID}` are assigned as three alphabets, e.g., AAA.
`{session ID}` are assigned as three alphabets, e.g., AAA.
`{utterance ID}` are assigned as eight alphabets, e.g., 2j8h8Hci
Speakers: 1792 speakers (subset: 979)
本コーパスは,YouTube動画から収集した,日本語音声を主とする,話者照合のための音声コーパスです.本コーパスのスペックは以下のとおりです.
時間長: 484 時間(サブセット:245 時間)
サンプリング周波数: 16 kHz
オーディオフォーマット: mp3
ファイル名フォーマット:
学習データ: `{speaker ID}_{utterance ID}`.mp3
テストデータ: `{enrollment speaker ID}_{session ID}_{utterance ID}`.mp3
`{speaker ID}` は3文字のアルファベット
`{session ID}` は3文字のアルファベット
`{utterance ID}` は8文字のアルファベット
話者数: 1792 名 (サブセット:979 名)
License / ライセンス
Research and development purpose only. (tentative. This will be subject to change.)
研究開発目的のみ.(暫定.変更する場合があります.)
Contributors / 作成者
Paper / 論文
塩田 さやか,永森 輝,若松 智花,高道 慎之介,"JTubeSpeech-ASV: YouTube から構築された話者照合のための日本語を主とした音声コーパス," 情報処理学会研究報告, Jun. 2023.
Shinnosuke Takamichi, Ludwig Kürzinger, Takaaki Saeki, Sayaka Shiota, Shinji Watanabe, "JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification," arXiv 2112.09323, Dec. 2021.
Acknowledgement / 謝辞
本コーパスの構築は,以下のプロジェクトを受けて実施したものです.
JSPS科研費 22H03639
セコム財団挑戦的研究助成