JVNV: a Japanese emotional speech corpus with both verbal content and nonverbal vocalizations (言語音声と非言語音声を持つ日本語感情音声コーパス)
Download / ダウンロード
Click here. [zip 1.7 GB]
Description / 内容
JVNV (Japanese emotional speech corpus with Verbal content and Nonverbal Vocalizations) is a Japanese emotional speech corpus with both verbal content and nonverbal expressions used in daily conversations such as laughter, and sobbing that can express emotions. The corpus consists of 3.94 hours of speech from 4 speakers with 6 emotions (anger, disgust, fear, happiness, sadness, and surprise). Each utterance of JVNV expresses a certain emotion, the duration of each NV phrase is also provided.
Compared to previous emotional speech corpora, JVNV has the following novel features:
JVNV has nonverbal expressions, which are rarely included in previous emotional speech corpora.
The scripts of JVNV (phoneme-balanced) are all generated by ChatGPT. To our best knowledge, JVNV is the first speech corpus that generates scripts automatically using large language models.
JVNV has the highest subjective emotion recognizability compared to previous Japnaese emotional speech corpora. In our subjective evaluation, JVNV obtained an overall emotion recognition accuracy of 94%, while the best previous corpus only had 80%.
Specification:
Language: Japanese
Speakers: 4 speakers (F1, F2, M1, M2), where F represents female, and M represents male, respectively.
Emotions: 6 emotions, including anger, disgust, fear, happiness, sadness, and surprise.
Duration: 3.94 hours with 1,615 utterances.
Sampling rate: 48 kHz
Audio format: Wav, mono, 24-bit
Sessions: each audio file is in one of the two sessions:
Regular session: the phrase of the NV was designated.
Phrase-free session: the phrase of the NV was decided by the speaker.
JVNV (Japanese emotional speech corpus with Verbal content and Nonverbal Vocalizations) は,言語音声と非言語音声から成る日本語感情音声コーパスです.非言語音声には,感情を表す笑い声や泣き声のような,日常会話で使用されるものが含まれます.コーパスには,4 話者・6 感情(怒り,嫌悪,恐れ,幸せ,悲しみ,驚き)による 3.94 時間の音声が含まれます.各発話は,指定された感情を表現しており,少なくとも1つの非言語音声を含みます.音声と書き起こしテキストに加え,本コーパスには各発話の非言語発話の時間区間が含まれます.
既存の感情音声コーパスと比較して,JVNVコーパスは以下の特徴を持ちます.
既存の感情音声コーパスにはほとんど含まれない非言語音声を含むこと.
JVNV のセリフは音素バランスが整っており,全て ChatGPT で作成されています.我々の知る限り,JVNV は大規模言語モデルを用いて全自動で作成された,初めての音声コーパスです.
JVNVは,既存コーパスと比較して最も高い感情知覚性能を有します.音声から知覚されるカテゴリ感情を主観的に識別させた結果,既存コーパスの識別結果が 80% に留まったのに対し,JVNV コーパスは 94% に至りました.
スペックは以下のとおりです.
言語: 日本語
話者: 4 話者 (F1, F2, M1, M2).F は女性,M は男性を表す.
感情: 怒り,嫌悪,恐れ,幸せ,悲しみ,驚きから成る 6 感情.
時間長: 1,615 発話から成る 3.94 時間.
サンプリング周波数: 48 kHz
オーディオフォーマット: Wav, モノラル, 24 ビット
収録セッション: 各発話は,以下の2セッションにいずれかに属します.
Regular: 非言語音声のセリフは監督者が設計.
Phrase-free: 非言語音声のセリフは話者自身が設計.
License / ライセンス
Contributors / 作成者
Paper / 論文
Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari, "JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions," arXiv preprint 2310.06072, Oct. 2023.
Acknowledgement / 謝辞
本コーパスの構築は,以下のプロジェクトを受けて実施したものです.
JST SPRING, Grant Number JPMJSP2108
JSPS科研費 JP23KJ0828