日本語機能表現辞書
「つつじ」
辞書データのダウンロード
tsutsuji-1.1u.zip (1.2MB)
ライセンス
「つつじ」は以下のライセンスで公開します。(2023/11/03に、Creative Commons 3.0, Attribution-ShareAlikeから以下のライセンスに変更しました。)
機能表現とは
日本語の文を構成する要素には、主に内容的な意味を表す要素(内容語)以外に、助詞や助動詞といった、主に文の構成に関わる要素があります。ここでは、後者を総称して「機能語」と呼びます。文の構成要素のなかには、複数の語から構成されているにもかかわらず、全体として一つのまとまった意味を表すものもありますから、それらも含めて整理すると、下のような表を作ることができます。ここで、「複合辞」とは「に対して」や「なければならない」のように、複数の語から構成され、かつ、全体として機能語のように働く表現のことです。我々は、機能語と複合辞を総称して「機能表現」と呼ぶことにします。
機能表現の数
日本語には一体どれくらいの機能表現があるのでしょうか? 実は、これに答を与えるためには、「何を同一とみなすか」ということを厳密に定義する必要があります。例えば、「に関する」と「にかんする」は同一表現でしょうか? これは、単に漢字表記とかな表記の違いですから、同一表現と考えるのが自然のように思えます。では、「に関する」と「に関して」は同一表現でしょうか? 「Aに関する調査」と「Aに関して調査した」は意味的に対応しますから、同一表現と考えたくなります。しかし一方で、前者は連体助詞相当(「Aの調査」)であるのに対し、後者は格助詞相当(「Aを調査した」)ですから、文法的機能はかなり異なります。当然のことながら、「何を同一とみなすか」が変われば数は変わってきますから、これらのことに判断を下さない限り、機能表現の数を数えることはできません。
見出しの階層化
上記の問題を解決するために(というよりは、保留とするために)、我々は見出しを階層化することにしました。つまり、ある階層レベルでは「に関する」と「に関して」は同一とみなすが、より下位のレベルではこれらを別のものとみなすことにするわけです。我々の辞書は下表に示すような9レベルの階層を持ちます。レベル9 (L9)は機能表現の「表層形」に対応します。つまり、表記のレベルでは辞書の見出し数は16,801件となります。一方、それ以外のレベルは、(なんらかの意味において)抽象化された機能表現を表します。
さて、すべてのレベルのノードには、つつじIDと呼ばれる、注意深く設計されたIDが付与されています。 例えば、「に関する」と「に関して」の表層形(L9)のIDは、次のようになっています。
に関する 0101D.2xx.46n02
に関して 0101P.1xx.01n02
この2つのIDを比較することにより、それらは、L2までは同じだが、L3でD (連体助詞型)とP (格助詞型)に分かれるということがわかります。つまり、2つの表層形の関係がIDの比較によりわかるようになっているのです。また、別の見方をするならば、0101というL2のIDは、「に関する」と「に関して」を包括する抽象的な(総称的な)機能表現に対応することになります。
日本語機能表現辞書「つつじ」
我々は2004年頃からこの辞書の編纂を開始し、2007年初頭にいちおうの完成を見ました。その後、意味分類を拡張し、2007年末にはほぼ現在の形に落ち着きました。公開にあたって、辞書の名称を「つつじ」と決めました。辞書に関するより詳しい議論は、次の論文をご参照ください。
松吉 俊, 佐藤理 史, 宇津呂 武仁 (2007). 日本語機能表現辞書の編纂. 自然言語処理, Vol.14, No.5, pp123-146.
松吉 俊, 佐藤 理史 (2008). 文体と難易度を制御可能な日本語機能表現の言い換え. 自然言語処理, Vol.15, Nol.2, pp.75-99.
クレジット
「つつじ」は、松吉 俊と佐藤 理史の共同著作物です。ライセンスについては、このページの上部をご覧ください。
Copyright © 2008 Suguru Matsuyoshi and Satoshi Sato.
「つつじ」の開発に対して以下の援助を受けました。
科学研究費補助金, 基盤研究(A), 「円滑な情報伝達を支援する言語規格と言語変換技術」, 研究代表者 佐藤理史, 2004年〜2007年, 課題番号16200009.
「つつじ」に関する質問等は下記宛にお願いします。
matsuyoshis AT stf.teu.ac.jp