JSSS: Japanese speech corpus
for summarization and simplification

Download / ダウンロード

Click here. [Google Drive link, zip 1.1 GB] (Also check JSSS-misc corpus.)

Description / 内容

This corpus consists of Japanese text (transcripts) and single-speaker voice data. The tasks are

  • summarization: duration-constrained text-to-speech summarization

  • simplification: "simple Japanese" utterances

  • short-form: reading-style short utterances

  • long-form: reading-style long utterances

The voice data is sampled at 24kHz and recorded in our anechoic room. The total duration of the voice data is eight hours.

このコーパスは日本語テキストと単一話者の音声データからなります.タスクは以下の通りです.

  • summarization: 時間制約付き音声要約

  • simplification: ”やさしい日本語” 音声

  • short-form: 短文読み上げ

  • long-form: 長文読み上げ

音声データは24kHzでサンプリングされ,無響室で収録されました.音声データの総時間数は8時間です.

Terms of use / 使い方

The text data is licensed as follows.

  • summarization: CC BY-ND 2.1

  • simplification: No commercial use

  • short-form: CC BY-SA 4.0 etc. (see JSUT corpus.)

  • long-form: CC BY-SA 4.0

The audio data may be used for

      • Research by academic institutions

      • Non-commercial research, including research conducted within commercial organizations

      • Personal use, including blog posts.

Any use that will violate public order and standards of decency are prohibited. Re-distribution is not permitted, but you can upload a part of this corpus (e.g., ~5 audio files) in your website or blog. If possible, please let me know when you revealed papers, blog posts, and others. It will be very helpful to investigate contributions of this corpus.

テキストデータは以下の通りライセンスされております.

  • summarization: CC BY-ND 2.1

  • simplification: 商用利用不可

  • short-form: CC BY-SA 4.0 etc. (JSUT corpusのライセンスをご覧ください)

  • long-form: CC BY-SA 4.0

音声データは,以下の場合に限り使用可能です.

      • アカデミック機関での研究

      • 非商用目的の研究(営利団体での研究も含む)

      • 個人での利用(ブログなどを含む)

公序良俗に反する利用は認められていません.音声データの再配布は認められていませんが,あなたのウェブページやブログなどでコーパスの一部(例えば,5文程度)を公開することは可能です.できれば,あなたが論文やブログポスト等の成果を公開した際には,私まで連絡してもらえると助かります.このコーパスの貢献を調査することは,我々にとって非常に有効な情報となります.

Contributors / 作成者

Paper / 論文

Shinnosuke Takamichi, Mamoru Komachi, Naoko Tanji, and Hiroshi Saruwatari, "JSSS: free Japanese speech corpus for summarization and simplification," arXiv preprint, 2010.01793, Oct.. 2020.

Acknowledgement / 謝辞

本コーパスの構築は,以下のプロジェクトを受けて実施したものです.

リンク (link)