昭和52(1977)年度から昭和60(1985)年度にかけて、文化庁によって「各地方言収集緊急調査」が実施されました。これは、「全国的に急速に変化し、失われつつある各地の方言を各都道府県において、緊急に調査し、これを記録・保存する」目的で行われた、全国規模での方言談話の収録事業です。国立国語研究所は、文化庁の要請により、この調査の計画段階から、指導・助言などにかかわっていました。
文化庁は、全国の都道府県教育委員会に各地方言の収集を指示しました。47都道府県は、実施時期ごとに、第1次(昭和52(1977)~54(1979)年度)から第7次(昭和58(1983)~60(1985)年度)に分けられ、それぞれ3年計画で、収録を行いました。
各都道府県教育委員会は、言語学、国語学、方言学の専門家から調査員として、主任調査員2名と調査員若干名を選出し、さらに、専門家や学識経験者を交えて、調査地点、具体的な調査方法、全国共通の場面設定会話項目などについて検討し、その結果をもとに調査を進めました。
その実施の概要は次のようなものです。
(1) 調査目的
全国的に急速に変化し、失われつつある各地の方言を各都道府県において、緊急に調査し、記録・保存する。自然な方言会話を良質な録音で採録し、後世に残す。
(2) 調査方法
(3)の調査内容にしたがって、1地点につき1年度あたり10時間程度の方言会話を良質な録音で採録する。そのうち、自然な方言会話の部分を3時間程度選んで、文字化を行い、共通語訳をつけて、記録として残す。
(3) 調査内容
①老年層の男女各1人による対話、または、男女を含む3人の会話(2時間)
②老年層の男性2人の対話、または、老年層の男性3人の会話(1時間)
③老年層の女性2人の対話、または、老年層の女性3人の会話(1時間)
④老年層と若年層との対話、または、両者を含む3人の会話(1時間)
⑤老年層の男性2人の、目上の者と目下の者の対話(2時間)
⑥場面設定の対話(1時間、各場面につき1~3分程度)
場面に応じて、老年層の男性2人の対話、または、老年層の男女各1人による対話
⑦当該地域に伝わる民話(1時間)
民話の語り手が存在する地点で収録を行う。収録不可能な場合は、
⑧老年層の女性2人の、目上の者と目下の者の会話(1時間)
または、
⑨目上の老年層の男性と目下の老年層の女性の、2人の対話(1時間)
を収録する。
①~⑤、⑧、⑨については、話題は自由。一般的には、「調査地の現況・変遷」「気候」「天災などの思い出」「こどもの頃の遊び」「仕事」「土地の生業」「出稼ぎ」「家事」「こどもの養育」「生活の変遷」「生活の中の楽しみ」「自慢話」「衣」「食」「住」「婚礼などの風俗」「信仰」「年中行事」「村の将来」「若者観」など。
⑥は、自然談話では得にくい各種の表現を得ることを目的として、特定場面を設定し、話者に「演技的対話」をさせる。「訪問」「辞去」「道でのあいさつ」「出産」「婚礼」「葬式」などの各種のあいさつ、「依頼」「指示」「助言」「買物」「勧誘」などの各種場面を設定する。具体的には、文化庁と各都道府県教育委員会が協議して、全国共通の数場面を設定する。
(4) 調査地点
調査地点は、各都道府県について5地点程度を選定する。文化庁および地元方言研究者の意見を聞いて、各都道府県教育委員会が決定する。
方言区画上、複数の区域に分かれる場合は、方言の状況が概観できるように、それぞれの区域から収録地点を選ぶ。特に、離島など、特色の認められる方言は可能な限り収録する。
(5) 話者
その土地で生まれ育ち、よその土地に住んだことのない、あるいは、よその土地に住んだことがあっても、その期間が短い人とする。在外期間は3年以内が望ましい。
年齢は、原則として、老年層の場合は、収録時において60歳以上とし、若年層の場合は、20~30歳代とする。
話者相互の立場はほぼ対等であることを原則とする。
(6) 録音
自然な会話を良質な録音で残すため、使用する録音機の性能、マイクの種類・配置、テープの長さ、収録場所の音環境などに注意する。
録音テープ記録票には、採録地点、採録年月日、話題、時間、話者、採録機種などを記入する。
録音テープは、収録したオリジナルのテープ(正)を1本、正テープより文字化部分を編集したテープ(副)を2本作成する。
(7) 文字化
方言音声の文字化の際の表記は、原則として、カタカナ書きとし、方言の音声的特徴をある程度表し得るよう工夫する。文字化に対応する共通語訳をつける。文字化内容について、場面・文脈・特徴的音声・方言形の語義・用法などについての注記、表記法についての説明などを行う。各地点ごとに、収録地点の方言の特色について解説する。収録地点の位置・交通・地勢・行政区画の変動・戸数・人口・産業など、収録地点の概観について記述する。録音内容記録票には、話者の氏名・性・生年・経歴、録音内容などを記入する。
文字化原稿は、手書きのオリジナル原稿(正)を1部、正の複製(副)を2部作成する。
調査は、各都道府県教育委員会と連携のうえ、全国各地の方言研究者が全面的に協力して行われました。その結果、地域的密度、収録量、方言的内容のいずれの面からも、他に類を見ない高レベルのデータを得たのです。
調査終了後、これらの方言談話の録音テープとその文字化原稿は、各教育委員会から、「各地方言収集緊急調査」報告として、文化庁に提出され、永久保存されることとなりました。
資料 当時の関係文書
「各地方言収集緊急調査」報告資料は、方言の使用実態を解明する貴重なデータであるとともに、急速に失われつつある各地の伝統的方言を、文化財として記録・保存するという意味においても意義のあるものです。
いくつかの教育委員会が、この資料の一部を用いて、独自に報告書を刊行しています。ただし、市販されているわけではないので、一般には入手しにくいものとなっています。また、その形態は印刷物で、電子化された文字化テキストを備えたものはありません。録音テープを添付しているものも少数です。その他の資料については、まったくの未公開となっていました。
その後、「各地方言収集緊急調査」報告資料は、文化庁から国立国語研究所に移管されました。国立国語研究所では、受け継いだ録音テープ・文字化原稿を有効に利用するために、膨大な報告資料を整備して、方言談話の大規模なデータベースを作成し、公開するという計画を開始しました。
平成8(1996)~12(2000)年度には、一般研究課題「方言録音文字化資料に関する研究」において、報告資料の一部を用いたケーススタディ的研究をおこないました。
平成13(2001)~17(2005)年度は、「日本語情報資源の形成と共有のための基盤研究」というプロジェクトの一環として、全国方言談話データベースの作成と公開に取り組みました。
平成18(2006)年度からは、「日本語に関する蓄積資料の整備」というプロジェクトの一環として、全国方言談話データベースの作成と公開を進めました。
その一方で、平成9(1997)~13(2001)年度には、作成データベース名「全国方言談話資料データベース」、作成委員会名「全国方言談話資料データベース作成委員会」として、また、平成14(2002)~18(2006)年度には、作成データベース名「全国方言談話データベース」、作成委員会名「全国方言談話データベース作成委員会」として、科学研究費補助金研究成果公開促進費(データベース)の交付を受け、音声資料、文字化資料を電子化する作業を進めました。平成13(2001)年度からは、「全国方言談話データベース」の公開を開始しました。
なお、このデータベースの作成事業で受けた、科学研究費研究成果公開促進費(データベース)は下記のとおりです。
年度 課題番号 補助金交付額
平成 9年度 57 1,800,000円
平成10年度 64 1,800,000円
平成11年度 501027 1,800,000円
平成12年度 128032 2,800,000円
平成13年度 138031 4,600,000円
平成14年度 148034 5,200,000円
平成15年度 158043 6,100,000円
平成16年度 168037 7,000,000円
平成17年度 178036 6,500,000円
平成18年度 188023 6,600,000円
「各地方言収集緊急調査」報告資料については、日本全国の47都道府県でそれぞれ5地点程度、計220地点あまりにおける、約 7,500本の方言談話の録音テープと、その一部を文字化した原稿が残されています。昭和52(1977)~60(1985)年度当時の老年層話者の自然談話が中心であるので、現在においては急速に失われつつある伝統的方言が比較的よく残されているものであると考えられます。
これらの報告資料をすべてデータベース化するのが理想ではありますが、膨大な資料を一気にデータベース化するのは困難ですので、段階的に公開をおこなうことにしました。
『全国方言談話データベース 日本のふるさとことば集成』では、まず、第一段階として、各都道府県につき1地点、計47地点の老年層男女の自然会話を選び、その地の伝統的方言がもっともよく現れていると思われる部分を30~50分程度データベース化しました。
データベース化のためには、次のような作業が必要でした。
①録音テープには、正が1本、副が2本ある。正は収録したオリジナルのテープ、副は正より文字化部分のみを編集したもので、いずれも60分または90分のカセットテープである。正をデジタル化し、複製を作成する。
②文字化原稿には、正が1部、副が2部ある。正は、文化庁指定のB4判の用紙を使用した手書き、副は正のコピーである。正の文字化、共通語訳をパソコンにテキストデータとして入力する。この時点では、できる限り正の文字化原稿に忠実に行う。
③文字化原稿の収録地点、話者、談話内容、状況記録などの確認をし、その文字化原稿に対応する録音テープの録音状態などの確認を行う。
④老年層男女の自然談話のうち、各都道府県につき1地点30~50分をめやすとして、データベース化部分に選定する。
⑤データベース化する部分の、文字化テキストと、それに対応するデジタル化した録音音声を抽出する。
⑥音声データをもとに、文字データの明らかな誤りなどを修正する。原則としては原資料の文字化原稿に従っておこなうが、見やすさを優先させたり、全体の統一を図ったりするため、必要に応じて変更を加える。この作業は、その地域の方言を専門とする研究者に依頼する。
⑦記号の種類と使い方、句読点、分かち書きなどについて、凡例を作成する。『全国方言談話データベース』における表記・形式は、見やすさや全体の統一のため、必要に応じて変更を加えているので、「各地方言収集緊急調査」当時のマニュアルに記載されているものとは部分的に違いが生じている。
⑧文字化データに沿う形で、注記を整える。原則としては原資料に従っておこなうが、場合に応じて最低限の変更を加える。
⑨収録地点の概観、方言の特色などの解説については、原則としては原資料に従っておこなうが、全体の統一を図るため、表記・章立てなどについて、最低限の変更を加える。
⑩調査の概要、収録した談話内容・地点・場所・日時などの情報、話者の性別・年齢・職業などの情報をまとめる。
⑪校正をおこなった文字データをもとに、文字化と共通語訳を2段組に対照させたファイルを作成する。さらに、それをpdfファイルにする。
⑫文字化と共通語訳を2段組に対照させたファイルを用いて、文字化のtextファイル、共通語訳のtextファイルを作成する。
⑬音声データは、サンプリング周波数22.050kHz、量子化ビット数16bitでデジタル化して、音声ファイル(wave形式)を作成する。そして、それを、文字化と共通語訳を2段組に対照させたページに従って、ページ単位に切り、文字化・共通語訳のpdfファイルにリンクさせる。
⑭CD-ROMは、データベースソフトを利用して、文字化・共通語訳の文字列による検索、話者による検索などができるようにする。
⑮CDには、トラックに区切った談話全体の音声を収録する。
⑯録音テープ・文字化原稿が所在不明の地点については、必要に応じて、現地に赴き、収録担当者・教育委員会・図書館・関係者の協力を仰ぎながら、入手に努める。
⑰「各地方言収集緊急調査」の話者・収録担当者・文字化担当者・解説担当者などには、可能な限り、文書でデータ公開の通知と確認を行う。
⑱作成過程において、ある程度のデータが蓄積された段階で、CD-ROM、または、音声はカセットテープ・MD、文字はFDを媒体とした試作版を作成し、モニターに依頼して意見・要望を求め、データベースに反映させる。
⑲検索情報の整備、検索マニュアル、利用規程などの作成をおこなう。
『全国方言談話データベース 日本のふるさとことば集成』全20巻の各巻は、冊子、CD-ROM、CDから成り、方言談話の音声(waveファイル)、文字化(カタカナ表記、textファイル)、共通語訳(漢字かなまじり表記、textファイル)、文字化・共通語訳を2段組に対照させたもの(冊子、pdf)などを収録しています。従来にはあまりなかった、音声、文字化、共通語訳の電子化データを備えていますので、研究や教育のために加工して、自由に検索することができるという特徴があります。
刊行にあたっては、国立国語研究所における『全国方言談話データベース』刊行物検討委員会で最終的なチェックをおこないました。
上記のような作業を経て、『国立国語研究所資料集 13-1~20 全国方言談話データベース 日本のふるさとことば集成』が刊行されました。
「日本語諸方言コーパス」 (Corpus of Japanese Dialects:COJADS) は、日本各地の方言の談話音声を大量に集めた、日本で初めての諸方言コーパスです。
談話音声は、文化庁「各地方言収集緊急調査」の方言談話の収録データを使用しています。『全国方言談話データベース 日本のふるさとことば集成』で公開されたデータを含め、未公開のデータも随時追加しています。
2022年3月20日時点での公開データは、80時間です。