「各地方言収集緊急調査」の地点・収録年・談話の種類と、現時点のデータ整備の進捗段階についてまとめたリストです。
文化庁「各地方言収集緊急調査」資料には、下記のA~Dの4タイプのデータがあります。
A-1.原資料
① 手書き原稿
② カセットテープ
A-2.原資料電子化データ
①-1 手書き原稿のPDF
①-2 手書き原稿を入力したテキストファイル
② カセットテープ音源をそのまま電子化した音声ファイル
A-3.原資料電子化加工データ
①-3 談話ごとに方言と共通語訳を対照させたExcelファイル
②談話ごとに切り出した音声ファイル
B.アラインメント・ネイティブチェック済データ
①TextGridファイル
②時刻情報付きエクセルファイル
C.個人情報処理済データ
リポジトリ登録データ(TextGrid、Excel、メタデータファイル)
危機言語データベース(音声データ)
D.タグ付けデータ
COJADSデータ 無償版
COJADSデータ 有償版
【AデータからBデータへ】
方言テキストと標準語テキストを整備します。
方言テキストの整備はPraat上で行い、「TextGridファイル」を作成します。標準語テキストの整備はエクセル上で行い、「時刻情報付きのエクセルファイル」を作成します。
方言テキストの整備│Praat ▶TextGridファイル
① テキスト層の設定:tierの設定
② 音声と方言テキストの対応:boundaryの設定と方言テキストの貼り付け・加筆修正
③ 個人情報の処理:個人情報タグの付与、テキストの記号化
標準語テキストの整備│エクセル ▶時刻情報付きのエクセルファイル
④ ファイルの変換:TextGridファイルからExcelファイルへの変換
⑤ 方言と標準語テキストの対応:標準語テキストの貼り付け・加筆修正
⑥ タグ付け:省略・言いよどみ・ゼロタグの付与
上記A・Bのデータを整備・利用するにあたっては、下記の事項を守ってください。
文化庁「各地方言収集緊急調査」データ整備について
1.著作権
データの著作権は、国立国語研究所にあります。
2.整備・利用条件
整備・利用にあたっては、以下の利用条件をすべて守ってください。
(1)国立国語研究所の著作権を侵害するような行為はしないでください。
(2)データは、どのような目的においても、また、どのような媒体(紙、電子メディア、インターネットを含む)によっても、第三者に配布しないでください。
(3)データは、非営利の教育・研究目的に限り、自由に利用できます。
ただし、上記(2)は守ってください。
(4)データに記載された個人情報を第三者に提供および公表しないでください。
(5)データを利用した研究成果を公表する場合は、個人が特定されないように、文字および音声の処理をおこなってください。
(たとえば、個人名を記号に置き換える、音声はかぶせ音で加工する、など。)
(6)データを利用した研究成果を公表する場合は、「国立国語研究所が所蔵する「各地方言収集緊急調査」資料を利用した。」などのように明記してください。
あわせて、成果物の書誌情報などを国立国語研究所(こちら)にお知らせください。
(7)資料の利用によって基本的人権や著作権に関する問題が生じた場合は、データの利用者がすべてその責任を負うことになります。
(8)以上の利用条件に合致しない場合、あるいは、利用について不明な点がある場合は、こちらに問い合わせてください。
Bのデータを利用できるのは、「みんなで談話整備プロジェクト」に参加登録した人に限ります。
談話データの整備作業(ネイティブチェック、アラインメントデータ作成)、サポーター(研究費提供、作業担当者の監督、プロジェクトへのさまざまな支援・協力)として参加してくださる方は、 下記のフォームから「みんなで談話整備プロジェクト」への登録をお願いします。