JVS (Japanese versatile speech) corpus

ダウンロード (download)

Click here. [Google Drive link, zip 3.5 GB]

(old ver. : None)

内容 (description)

This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows.

  • 100 professional speakers
  • Each speaker utters:
    • "parallel100" ... 100 reading-style utterances that are common among speakers
    • "nonpara30" ... 30 reading-style utterances that are completely different among speakers
    • "whisper10" ... 10 whispered utterances
    • "falsetto10" ... 10 falsetto utterances
  • High-quality (studio recording), high-sampling-rate (24 kHz), and large-sized (30 hours) audio files
  • Useful tags included (e.g., gender, F0 range, speaker similarity, duration, and phoneme alignment (automatically generated) )

このコーパスは日本語テキストと多数話者の音声データからなります.スペックは以下のとおりです.

  • 100人のプロフェッショナル話者(声優・俳優など)
  • 各話者について以下の音声を含みます:
    • "parallel100" ... 話者間で共通する読み上げ音声 100 発話
    • "nonpara30" ... 話者間で全く異なる読み上げ音声 30 発話
    • "whisper10" ... ささやき声 10 発話
    • "falsetto10" ... 裏声 10 発話
  • 高音質(スタジオ収録)・高サンプリングレート(24 kHz)・多数の (30 時間) 音声ファイル
  • 便利なタグ (例: 性別,F0レンジ,話者類似度,継続長,音素アライメント (自動抽出))

使い方 (terms of use)

The text data is came from the JSUT corpus, and its licence information is written in the JSUT corpus. The tags are licensed with CC BY-SA 4.0. The audio data may be used for

      • Research by academic institutions
      • Non-commercial research, including research conducted within commercial organizations
      • Personal use, including blog posts.

If you want to use for commercial purposes, please see below. Re-distribution is not permited, but you can upload a part of this corpus (e.g., ~10 audio files) in your webpage or blog. If possible, please let me know when you revealed papers, blog posts, and others. It will be very helpful to investigate contributions of this corpus.

テキストデータはJSUTコーパスから来ており,そのライセンス情報はJSUTコーパスに記述されております.タグ情報は,CC-BY-SA 4.0 でライセンスされております.音声データは,以下の場合に限り使用可能です.

      • アカデミック機関での研究
      • 非商用目的の研究(営利団体での研究も含む)
      • 個人での利用(ブログなどを含む)

営利目的の利用を希望される場合,下記をご覧ください.この音声データの再配布は認められていませんが,あなたのウェブページやブログなどでコーパスの一部(例えば,10文程度)を公開することは可能です.できれば,あなたが論文やブログポスト等の成果を公開した際には,私まで連絡してもらえると助かります.このコーパスの貢献を調査することは,我々にとって非常に有効な情報となります.

作成者 (contributors)

論文 (paper)

Shinnosuke Takamichi, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, and Hiroshi Saruwatari, "JVS corpus: free Japanese multi-speaker voice corpus," arXiv preprint, 1908.06248, Aug. 2019.

商用利用 (terms of commercial use)

我々は本コーパスの商用利用を歓迎します.我々は更に高品質(48 kHzサンプリング,24ビット量子化)の音声ファイルや,商用利用に係る有益なオプションを用意しております.商用利用をご希望の場合は,下記アドレスにご連絡下さい. We welcome your commercial use. We have higher-quality (48 kHz sampling rate, 24 bit encoding) audio and some beneficial options for the commercial use. Please feel free to contact the following members for your commercial use.

    • Keiji Sueishi (TLO of the Univ. of Tokyo) / 居石 圭司 (東大TLO) ... sueishi [_at_mark_] todaitlo.jp
    • Shinnosuke Takamichi / 高道 慎之介 ... shinnosuke_takamichi [_at_mark_] ipc.i.u-tokyo.ac.jp

謝辞 (acknowledgement)

本コーパスの構築は,以下のプロジェクトを受けて実施したものです.