Tohoku folktale corpus (東北地方民話コーパス)
Download / ダウンロード
Click here. [zip 0.5GB]
Restored speech / 復元音声: zip
Description / 内容
This corpus (database) is a digitized and annotated collection of Tohoku region folktales stored on open-reel and analog tapes. These folktales were collected by the folktale collector Tokuo Sasaki (1929-2010), who began collecting them in 1957, mainly in the Tohoku region.
本コーパス(データベース)は,オープンリールテープやアナログテープに保存されていた東北地方民話(昔話)をディジタル化し,アノテーションを付与したものです.この昔話は,昔話採集家の佐々木徳夫(1929-2010)が 1957年より東北地方を中心に収集したものです.
speech/ ... 16kHz-sampled speech data / 16kHzサンプリングの音声ファイル
transcript/ ... transcription / 書き起こし
meta_info/ ... meta information / メタ情報
Terms of use / 使い方
本コーパスは,以下の例外を除き,音声言語の情報解析の用途(商用,非商用を問わない)で利用可能です.
公序良俗に反する利用
話者,または他者を誹謗中傷したり,信用失墜を意図する内容を含む利用
なお,以下の話者については,著作権継承者の許可を頂いたため情報解析以外にも利用可能です.ただし,上記例外の場合には利用できません.
M001
This corpus may be used for use (including commercial or non-commercial uses) of information analysis of spoken language except in the following cases:
Any use that violates public order and standards of decency
Any use that includes contents intended to defame or discredit the speaker or others
The following speakers can be used for purposes other than information analysis with the permission of the copyright holder. However, they cannot be used in the above exceptions.
M001
Contributors / 作成者
丹治 尚子
Naoko Tanji
森松 亜依
Ai Morimatsu
Takaaki Saeki
庄司潤子
Junko Shoji
佐藤照一
Shoichi Satoh
Paper / 論文
高道 慎之介, 丹治 尚子, 佐伯 高明, 森松 亜依, 庄司 潤子, 佐藤 照一, 猿渡 洋, "東北方言昔話に関する歴史的音声コーパスと機械学習ベース自動音声復元の試み," じんもんこん2022, Dec. 2022.
Acknowledgement / 謝辞
本コーパスの構築は,以下のプロジェクトを受けて実施したものです.
Google Research Grant "Speech and Audio Research"
国立国語研究所 異分野融合型共同研究 "歴史的音源アーカイブに向けたオープンコーパスの整備と AI 音声復元技術の開発"