第28話. 計量言語学について思うこと (2005/12/07 予告編作成、2006/1/21一部加筆発表)
計量言語学は、異なる言語 (例えば日本語と韓国語) をある基準で選択した基礎語の統計的な比較により、その親疎を判断しようという言語学ですが、いろいろと思うことがあります。
先ず、基礎語を選択しないで闇雲にやってみたらどんな結果になるのでしょう?
別の分野ですが、DNA配列の相同性検索プログラムは、まさにそのようにやっており、有効な結果を出しています。DNA配列はA(アデニン)、T(チミン)、C(シトシン)、G(グアニン) のたかが4文字の組み合わせの配列ですが、様々な生命のDNAの断片を、DNA全体のどこからちぎれたか判らない断片を、それこそ100文字程度の長さのものから1万文字程度の長さのものまで、何億とデータベースに登録されたものと比較して、その相同性を求めるので、比較の対象が言語の単語の数 (せいぜい数万から数十万だと思いますが) とは比べ物にならないくらい膨大になります。また、DNAは、配列の中の文字の置換や欠損、あるいは部分配列の挿入や繰り返しといったことが多くあり、文字列がピッタリ一致することを前提とした検索は出来ません。ある配列とある配列がどれだけ似ているところがあるかというところを得点化して、似ている順に候補をリストしてきます。
このような考え方を、計量言語学の方でも採用できるのではないかと思います。全ての言語の単語を意味と発音記号、及び、その所属言語、所属時代(ほとんどの言語は現代になると思いますが)を付けて言語DBに登録し(これはかなりの力作業とは思いますが)、発音記号をキーとして全ての単語の相同性の検索を行ったらどうでしょうか? 例えば、hanaと発音する単語の相同性検索を言語DBに対して行うと、h∂naや、h∂enaや、fanaや、panaや、bana等等がある得点を得る。この時に、その所属言語に対しても対応する得点を付与しておく。そして、例えば日本語の全ての単語について、全言語DBに対して相同性検索を行い、その結果、総合得点で高い得点を得た言語は、日本語と親近性が高いということが言えると思います。日本語には漢字を始め、外来語が結構入っているので、上記の検索で例えば、漢字を対象外とすれば、中国語の影響を排除した比較となると思います。
上記に対して、もう少し比較言語学の成果を取り入れるとすると、例えば、言語毎の祖語を求めるロジックがあればそれを適用して、祖語に到る過程の変化の量を言語比較の際のTolleranceとして点数化して一致度を求める際の得点として減算していくという方法が考えられます。
考慮点として、発音記号について、記号にしてしまうと一見同じものとは思われない単語が、人が発音して耳で聞くと、ほとんど同じに聞こえるということが常々あり、相同性の得点にかかわるロジックが大切だと思います。
計量言語学の考え方は、いつ頃から出てきたのか判りませんが、このような手法を取れば比較言語学は一部の天才達の勘の世界から、もっと開かれた世界に行くのではないかと、30数年前にシステムズエンジニアに成りたての頃、歯がゆく思っていました。