JTubespeech-ASV: Japanese speech corpus for automatic speaker verification / 日本語話者照合用コーパス

Download / ダウンロード

Data (zip file, 8.9 GB)

Description / 内容

This is a speech corpus for automatic speaker verification, mainly Japanese speech, collected from YouTube videos. The corpus specifications are as follows.

Duration: 484 hours（subset: 245 hours）
Sampling frequency: 16 kHz
Audio format: mp3
File name format:
- train data: `{speaker ID}_{utterance ID}`.mp3
- test data: `{enrollment speaker ID}_{session ID}_{utterance ID}`.mp3
- `{speaker ID}` are assigned as three alphabets, e.g., AAA.
- `{session ID}` are assigned as three alphabets, e.g., AAA.
- `{utterance ID}` are assigned as eight alphabets, e.g., 2j8h8Hci
Speakers： 1792 speakers (subset: 979)

本コーパスは，YouTube動画から収集した，日本語音声を主とする，話者照合のための音声コーパスです．本コーパスのスペックは以下のとおりです．

時間長: 484 時間（サブセット：245 時間）
サンプリング周波数: 16 kHz
オーディオフォーマット: mp3
ファイル名フォーマット:
- 学習データ: `{speaker ID}_{utterance ID}`.mp3
- テストデータ: `{enrollment speaker ID}_{session ID}_{utterance ID}`.mp3
- `{speaker ID}` は3文字のアルファベット
- `{session ID}` は3文字のアルファベット
- `{utterance ID}` は8文字のアルファベット
話者数： 1792 名 (サブセット：979 名)

License / ライセンス

Research and development purpose only. (tentative. This will be subject to change.)

研究開発目的のみ．（暫定．変更する場合があります．）

Contributors / 作成者

塩田さやか
Sayaka Shiota

永森輝
Teru Nagamori

若松智花
Tomoka Wakamatsu

高道慎之介
Shinnosuke Takamichi

Paper / 論文

塩田さやか，永森輝，若松智花，高道慎之介，"JTubeSpeech-ASV: YouTube から構築された話者照合のための日本語を主とした音声コーパス," 情報処理学会研究報告, Jun. 2023.
Shinnosuke Takamichi, Ludwig Kürzinger, Takaaki Saeki, Sayaka Shiota, Shinji Watanabe, "JTubeSpeech: corpus of Japanese speech collected from YouTube for speech recognition and speaker verification," arXiv 2112.09323, Dec. 2021.

Acknowledgement / 謝辞

本コーパスの構築は，以下のプロジェクトを受けて実施したものです．

JSPS科研費 22H03639
セコム財団挑戦的研究助成

Link / リンク

Corpus list

Google Sites

Report abuse