J-MAC: Japanese multi-speaker audiobook corpus

ダウンロード (download)

Download from here.

内容 (description)

This corpus consists of time-aligned texts for commercial audiobooks. The audiobooks were selected from a large number of commercial ones for speech synthesis use. The specification is as follows. Note that, audio data is not included in this corpus, and users must purchase the audio data (Users can purchase audio data from audiobook.jp. See acknowledgement.)

このコーパスは,市販のオーディオブックの時間対応付きテキストから成ります.オーディオブックは,音声合成用に多数の市販品から選ばれています.仕様は以下の通りです.なお,このコーパスに音声データは含まれていませんので,ユーザーは音声データを購入する必要があります。(音声データは audiobook.jp から購入可能です.謝辞をご確認下さい.)

  • #speakers: 39 professional speakers / 話者数:39人のプロ話者

  • #textbook: 24 books / 小説数:24作品

  • #audiobook: 74 audiobooks / オーディオブック数:74作品

    • #audiobooks per speaker: 1.9 / 各話者の平均オーディオブック数: 1.9作品

    • #audiobooks per book: 3.0 / 各小説の平均オーディオブック数: 3.0作品

  • #authors: 7 people / 著者:7人

  • Duration: 31.5 hours / 時間長:31.5時間

    • Duration per speaker: 48 min. / 各話者の平均時間長: 48分

  • Sampling rate: 44.1 kHz / サンプリング周波数:44.1 kHz


The audiobooks in this corpus have been selected from a large number of commercial products to be suitable for speech synthesis. The selection criteria are as follows. All the processes are fully automated using machine learning.

本コーパスのオーディオブックは,大量の市販品の中から,音声合成に適するよう選択されたものです.その選択条件は以下のとおりです.全ての処理は機械学習を用いて全自動で行われています.

  • Good text-voice alignment / テキストと音声が良く対応している

  • No voice-music overlap / テキストと音楽(BGM)の重複がない

時間対応付きテキスト (time-aligned text)

Time-aligned text is a structured text with a sentence-level time alignment as follows.

時間対応付きテキストとは,以下のように,文レベルの時間アライメントの付いた構造化テキストです.

[title.yaml]

  • chapt000: # chapter index (000–)

    • parag000: # paragraph index (000–)

      • style000: # style index (000–)

        • sent: ある日の事でございます。 # sentence

        • time:

          • - 0.96 # start time [sec]

          • - 3.32 # end time [sec]

使い方 (terms of use)

Research only (visit the download page to see the details.)

研究のみ (詳細はダウンロードページを参照)

作成者 (contributors)

論文 (paper)

  • Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, Hiroshi Saruwatari, "J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis," arXiv 2201.10896, Jan. 2022.

謝辞 (acknowledgement)

本コーパスの構築は,以下のプロジェクトを受けて実施したものです.

All audiobook works are available from the following companies. We are grateful to the companies that allowed us to distribute this corpus. / 全てのオーディオブック作品は,下記の会社より販売されております.コーパス配布の許可をくださったこれらの企業に感謝いたします.

リンク (link)