NAISTテキストコーパスのアノテーション仕様書

概要

NAISTテキストコーパスでは,述語とその項の関係のうち,述語の原形に対してガ格,ヲ格,ニ格となる項をアノテーションしている.この際,文を越えて項が出現している場合であっても,その項がどれになるのか,また,文章内に項が出現していない場合であっても,その項が一人称なのか,二人称なのか,それ以外なのかをアノテーションすることで,外界照応を含む省略のアノテーションも行っている.さらに,固有名等の共参照関係,代名詞の照応関係についてもアノテーションを行っている.以下に,文章中の述語をどのように決定しているのか,また,その述語に対してどのようにガ格,ヲ格,ニ格の格要素を決定するのかをまとめる.NAISTテキストコーパスでは,述語だけではなく「採用」や「走り」等の事態を表す名詞に対する項をアノテーションしているが,事態を表す名詞(以降,「事態性名詞」と呼ぶ)をどのように決定しているのか,また,その事態性名詞の項をどのように決定するのかも説明する.さらに,名詞句の共参照関係の同定の基準についても以下にまとめる.

述語

  • タグ付けの範囲

    • 機能語相当表現例外ipadic一形態素に対して述語タグを付与する.ただし,「サ変名詞+"する "」,「名詞句+"だ"」の場合は複数形態素から構成される.

      • 基本的には以下の品詞(もしくは,品詞列)を対象に述語のタグを付与する.

        • 動詞

        • 形容詞

        • 「名詞句+助動詞("だ")」の「名詞句」

        • 節末の名詞句

      • 述語とする例を以下に示す.

            • 規制緩和は行政と業界の内輪の話ではない

      • (「ない」は助動詞なので述語としない)

            • もっともっと実利のある話だ。

      • (「ある」と「話」をそれぞれをアノテーションする)

  • タグ付けの範囲(例外)

    • 複合動詞の場合は,複合動詞全体を述語とみなし述語タグを付与する. 以下に複合動詞の例を示す.

  • 機能語相当表現

    • 「~をめぐって」や「~によると」などの機能語相当表現内のある形態素はipadicに動詞として登録されている場合がある.これらは述語とみなさずゼロ照応のタグも付与しないこととする.

  • 機能動詞

    • 「影響を与える」(cf.「影響する」)の「与える」や「磨きをかける」 (cf.「磨く」)の「かける」のように主たる意味を動作性名詞にあずけるような 述語(機能動詞)の場合でも,その述語には述語タグを付与し,さらに「影響を与える」の「影響」や「磨きをかける」の「磨き」に事態タグを付与する.

  • 述語とみなさない例

    • 動名詞とみなすことができる動詞やipadicには動詞で登録されているが副詞として解釈できるもの,固有表現内に出現する述語はタグ付けの対象とは考えず,述語タグは付与しない

      • 以下に述語とみなさない例を示す.

      • 動名詞の例.

      • 副詞の例.

      • 固有表現の例.(下線部が固有表現)

              • 点の取り方をよく知っている。

              • 行政と業界のもたれあいの構図。

              • 暮らしやすさや内外価格差の是正による価格低下。

            • 立ち上がる,食べ始める,走り出す,食べやすい,書き終える,考え込む, 書き上げる,抱きつく,書き直す, 取り返す,振りやむ

              • 野鳥を守る会

              • チェチェンの子どもを支援する会

              • ディピエトロ検事を首相にする会が発足した。

事態を表す名詞

格要素として記述されているサ変名詞(例,「採用」)や「走り」のような事態を表す名詞に対しては述語と同様に格関係のタグを付与したい. そのためには,まずどの(サ変)名詞が文章内で事態として表現されているかを特定してやる必要がある.そこで,事態となる名詞に「事態」タグを付与し, その名詞を対象に格関係のタグを付与する.ここではその「事態」タグを付与する基準を示す.

    • タグ付けの範囲 : (B)

      • 事態タグは事態を表現する名詞に(つまり1形態素に)タグを付与する.

      • 県の現在の一般事務職の採用は日本国籍が要件。

      • 国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが,...

      • 出生数急増の背景には九〇年ごろから始まったウエディング・ブームがある。

    • タグを付与しない例: (B)

      • サ変名詞のような「事態」タグ付与の対象となる名詞の中には「電話」「意味」のように事態としてふるまう場合と実際のモノを表す場合の多義な語が存在する. 「事態」のタグは前者の場合,つまり,事態としてふるまう名詞にのみ付与する.

      • 下記の例で,(1)では「彼が僕に電話をかける(かけた)」という事態を表現しているために「事態」タグを付与するのに対し, (2)では「携帯電話」というモノを表しており,事態を表現しないため「事態」タグを付与しない.

      • (1) 彼の電話によって僕は出かける決心をした。

      • (2) 彼女は新しい携帯電話を買った。

格関係

    • ガ格,ヲ格,ニ格: (A)

      • 各述語の必須格にタグを付与する.

      • タグ付けの対象とする格はガ格,ヲ格,ニ格のみ. 述語が機能語相当表現である場合(例えば,「~とて」など)は機能語相当のタグを付与する.

      • 太郎花子リンゴあげた。 (1) (2) (3) ガ:(1) ヲ:(3) ニ:(2)

    • 二重主語構文: (C)

      • 「AはBがV」を「AのBがV」として置き換えることが可能な場合は「ノ」で付与.

      • Bridging referenceを参照.

      • 広島うまい。 (1) (2) ガ:(2) ノ:(1)

      • この論文一貫性ない。 (1) (2) ガ:(2) ノ:(1)

      • 一貫性ない 論文。 (1) ガ:(1) (2) ノ:(2)

      • それ以外(「好き」などの動詞や可能動詞)は「ハ」と「ガ格」を用いてタグを付与.

      • 格要素が二つある場合のみにタグを付与.

      • 片方が省略されている場合は,省略されている格は無視してタグを付与しない.

      • 基本的には「ハ」が提題されている要素,「ガ格」が対象となっている要素としてタグを付与する.タグ付けの対象は「~できる」や「読める」のような可能動詞,「好き」などの述語である.

      • 太郎花子好きだ。 (1) (2) ハ:(1) ガ:(2)

      • 勉強できる。 (1) (2) ガ:(1) ガ:(2)

      • 花子好きだ。 (1) ガ:(1)

      • 上記の例では,「花子」が好きな「誰か」をガ格として考えることができるが, 今回の作業では省略されているもう一つのガ格に対してのタグを付与しない.

    • 並列構造: (C)

      • 同じ格要素が並列構造によって複数存在する場合,すべての必須格(ガ格,ヲ格,ニ格)にタグを付与する.

      • 中学校は 四割、 高校も 三割 あった。 (1) (2) ガ:(1,2)

      • 太郎リンゴを, 次郎オレンジ食べた。 (1) (2) (3) (4) ガ:(1,3) ヲ:(2,4)

    • 同格: (B)

      • 「AとB」や「AやB」についてはそれらを一つの名詞句としてまとめず,それぞ れの名詞句に対して格関係のタグを付与する.

      • 太郎次郎帰ってきて 遊んでいた。 (1) (2) ガ:(1,2) ガ:(1,2)

    • cf.)ト格

      • 太郎が 花子と 結婚した。 (1) ガ:(1)

    • 数量名詞: (C)

      • 数量を表す名詞については格要素になる場合にのみタグを付与する.

      • ゼロ照応,名詞句照応の場合も同じようにタグ付与.

      • バナナの ほとんど食べる。 (1) ヲ:(1)

      • 上記の「ほとんど」はヲ格であるため,格関係のタグを付与する.

      • バナナを ほとんど 食べる。 (1) ヲ:(1)

      • 上記の「ほとんど」は副詞なので格関係のタグを付与しない.

    • 先行詞の曖昧性: (B)

      • 先行詞候補が「土曜日(1)」,「学校(2)」の場合,

      • (φ(=土曜日)ガ) 休みなる。 (3 ガ:(1) ニ:(3)

      • と,

      • (φ(=学校)ガ) 休みなる。 (3) ガ:(2) ニ:(3)

      • の二通りの解釈が存在する.

      • ※付与することができれば,両方付けてもらう.

      • 例)

      • (φ(=学校,土曜日)ガ) 休みなる。 (3) ガ:(1) 曖昧ガ:(2) ニ:(3)

      • 先行詞が曖昧であるため,一意に解釈が決まらない場合は,上の例のように正解となる先行詞 のうち一つに正解のガ格,ヲ格,ニ格のタ グを付与し,残りの先行詞については曖昧ガ格 ,曖昧ヲ格,曖昧ニ格で正解にタグを付与する.

格交替

格交替によって,深層レベルのガ,ヲ,ニ格以外に格が増える場合は 対象となる助動詞(補助動詞)にタグを付与する.

    • れる,られる:

        • 直接受身: (A)

          • 直接受身の場合は間接受身と区別するために,「れる」,「られる」について直接受身(格の追加が無い)を表すタグ「追加無し」を付与する.「追加無し」のタグを付与する際は,対象となる助動詞をクリックして「追加無し」に割り当てられているボタンを押す.

          • 読ま れる。 (1) (2) ガ:(2) 追加無し ヲ:(1)

        • 間接受身(被害の受身): (A)

          • 死な た。 (1) (2) ガ:(2) ガ:(1)

    • せる,させる: (A)

      • リンゴ食べ させる。 (1) (2) (3) ガ:(2) ガ:(1) ヲ:(3)

    • ほしい,たい: (A)

      • リンゴ食べほしい。 (1) (2) (3) ガ:(2) ガ:(1) ヲ:(3)

      • 避難所で 暮らす 人たち疲労濃い。 ガ:(1) (1) (2) (3) ガ:(2) ノ:(2) 状況即応した、 きめ細かい 住まい対策重要だ。 (4) ガ:(7) (5) ガ:(5) (6) (7) ガ:(7) ニ:(4) ノ:(7) ノ:(6) 応急仮設住宅を 一日も 早く、 大量に 提供し たい。 (8) ガ:外界(一般) ガ:外界(一人称) ヲ:(8)

    • もらう,いただく: (A)

      • 読んもらう。 (1) (2) (3) ガ:(2) ガ:(1) ヲ:(3)

    • くれる,下さる,くださる: (A)

      • 読んくれる。 (1) (2) (3) ガ:(1) ニ:(2) ヲ:(3)

    • やる,あげる: (A)

      • 読んやった。 (1) (2) (3) ガ:(1) ニ:(2) ヲ:(3)

    • てある: (B)

      • テアル形の場合は,「述語+てある」を原型 と考えてタグを付与する.

    • 正しい例)

      • 置いてある。 (1) ガ:(1)

    • 間違った例)

      • 置いてある。 (1) ヲ:(1)

    • 注:組み合わせの例: (A)

      • 上記の助動詞が一つの文節に複数出現する場合は,助動詞ごとにタグ付けする.

      • 企業に於ける 文化事業むずかしさ考え させ られた。 機能語相当 (1) (2) ガ:外界(一人称) ガ:外界(一般) ガ:× ノ:(1) ヲ:(2)

      • には この計画実現さ ほしい。 (1) (2) ガ:(1) ガ:(1) ガ:外界(一人称) ヲ:(2)

ゼロ照応

    • ガ格,ヲ格,ニ格: (A)

      • ガ格,ヲ格,ニ格の先行詞(名詞句)をタグ付けする.

      • A社新型交換機導入する。 (1) (2) ガ:(1) ヲ:(2) 自己診断機能搭載200システム設置する。 (3) ガ:(2) (4) ガ:(1) ヲ:(3) ヲ:(4)

      • 食べるため、 太郎は 広島へ 行った。 (1) ガ:(2) (2) ガ:(2) ヲ:(1)

    • 節(文,文章)照応: (B)

      • ゼロ代名詞が節(文,文章)を指す場合は,節照応であることのみをタグ付けする.

      • 独身男性が 部屋で 死亡していた。 (1) ガ:(1) 友人発見し通報した。 照応:(1) (2) ガ:(2) φガ:(2) ノ:(1) ヲ:節照応 ヲ:節照応

      • ※この例では「発見する」のヲ格が(1)という解釈もありうるため,下のように両方にタグを付与する必要がある.(先行詞の曖昧性を参照)

      • 独身男性が 部屋で 死亡していた。 (1) ガ:(1) 友人発見し通報した。 照応:(1) (2) ガ:(2) φガ:(2) ノ:(1) ヲ:節照応 ヲ:節照応 曖昧ヲ:(1)

    • 外界照応: (B) 外界照応を参照.

名詞句照応

    • 照応関係タグ付与の基準: (B)

      • 名詞句照応のタグを付与する際は以下の基準に従う.

      • 照応詞は文節の主辞(最右の名詞自立語)を対象とする.

      • 談話内に出現した名詞句のみを先行詞とする.

      • 総称名詞は照応詞,先行詞として考えない.

    • つまり,照応詞(または先行詞)のタグ付けの対象は談話内に同一指示対象が既出であり,非総称名詞となる.

    • さらに照応詞は文節の主辞に限定される.

    • また今回の作業では, 連体詞「この」「その」「あの」「どの」に対して名詞句照応のタグを付与しない.

照応関係タグ付与の手続き: (B)

照応関係タグ付与の基準に基づいたタグ付与の手続きを以下に示す.

if [対象となる名詞句NPiが指示的(現実世界の実体にマッピングできる表現) である] then

  • if [NPiが対象とする文章に新出(discourse new)である] then

    • タグ付与しない

  • elsif [NPiが直接照応(direct anaphora)である] then

    • 照応関係のタグを付与する

  • elsif [NPiに事態タグが付与される] then

    • タグ付与しない

  • elsif [NPiが間接照応(indirect anaphora)である] then

else # つまりNPiは総称名詞である

  • if [NPiが前方文脈の名詞句Aから限定される] then

つまり,今回のタグ付与作業では,現実(もしくは仮想)世界の実体を参照する名詞句は (i)discourse new,(ii)direct anaphora,(iii)indirect anaphoraのいずれかである と考え,direct anaphoraに該当する場合にのみ照応関係のタグを付与する.

極端な例をあげると,下の文章の「二冊の本」と「それ」の間にはanaphoric な 関係(文章内で別の表現を指す)はあるが,タグ付与の対象とするcoreferentialな関係(世界における同一実体を指す)はないため,二つの名詞句の間に照応関係タグを付与しない.

(※1だけでは応用分野で必要となる「AのB」の関係がほとんど獲得できないため, ※2を追加した.つまり,現状では「AのB」のタグが付与されていることで, 実体を指しているか否かの区別はできない.この手順を例外的に認めるか否かについては今後も検討を続ける)

太郎が二冊の本を買った。 一週間後,次郎もそれを買った。

文節の主辞同士の照応: (B)

意味的に同一のものを指す名詞句が文章内に複数存在する場合,最初に出現し た名詞句を先行詞(traditional antecedent)とし,残りをすべて照応詞として 名詞句照応のタグを付与する.

太郎が 学校から 帰ってきた。 (1) ガ:(1) しかし、 は すぐに 公園出かけてしまった。 (2) (3) ガ:(2) 照応:(1) ニ:(3) には 友達なんて いないはずなのに。 (4) (5) ガ:(5) 照応:(1) ニ:(4)

文節の主辞以外の照応: (B)

文節の主辞以外の名詞句に対しても,文節の主辞同士の 照応の基準で同じようにタグを付与する.

A政府捕虜 釈放呼びかけた。 (1) (2) (3) ガ:(1) ヲ:(3) それに 対して、 照応:節 B政府捕虜解放保証した。 (5) 照応:(2) (6) ガ:(5) ヲ:(6) ニ:(1)

名詞自立語のタグを付けない例: (B)

以下に名詞自立語のタグを付与しない場合を3つに分けて説明する.

これ以外の場合は,原則として名詞句照応のタグを付与する.

    • 新出の総称名詞: (A)

      • 新出の総称名詞は名詞句照応のタグ付けの対象としない.

      • 図書館では 借りる ことできる。 (1) ガ:外界(一般) (2) ガ:(2) ヲ:(1) 外の関係:(2)

      • 「図書館」や「本」は総称名詞なのでタグを付与しない.

    • 既出の総称名詞: (A)

      • 既出の総称名詞にも名詞句照応のタグ付けの対象としない.

      • 図書館では 借りる ことできる。 (1) ガ:外界(一般) (2) ガ:(2) ヲ:(1) しかし、 図書館置いてある 汚れている。 (3) ガ:(4) (4) ガ:(4) ニ:(3)

      • 2文目の「図書館」や「本」は1文目に同一の総称名詞が既出しているが,この場合もタグを付与しない.

    • 新出の非総称名詞: (A)

      • 新出の非総称名詞は名詞句照応のタグ付けの対象としない.

      • 太郎花子会った。 (1) (2) ガ:(1) ニ:(2)

      • 「太郎」「花子」は非総称名詞だが,この文章において1回しか出現していな い(つまり,新出の要素である)ため名詞句照応のタグを付与しない.

節(文,文章)照応: (B)

照応詞が節(文,文章)と照応関係にある(名詞句照応以外の)場合は先行詞のス コープを決めることが困難であるため,今回の作業ではタグ付与せず,照応:節 のタグのみをタグ付けする.

以下の二つの例では,簡略化のために節照応のタグのみを示す.

大統領府は式典を開催する予定だ。 これに 対し、ある団体がこの行事を批判している。 照応:節

ロシア政府は十日、チェチェン共和国での二日間の休戦を一方的に発表し、ドゥ ダエフ政権部隊に対し、武装解除と捕虜釈放を呼び掛けた。 エリツィン大統領の委任を受けて発表したものだが、チェルノムイルジン首相 の主導権で行われたとみられる。政府発表はタス通信を通じて行われた。 それによると、流血の事態拡大を防ぎ和平交渉への機会を作るため、十日午前 八時から十二日午前八時まで休戦とする。 この間、非合法武装勢力に対し、戦闘の停止・武器引き渡し・戦闘での捕虜釈 放を呼び掛けた。 ロシア政府は非合法武装勢力参加者の自由解散と住居地への帰還を保障し、ロ シア下院の恩赦決議に基づき、チェチェンでの戦闘参加者に刑罰を科さないと 約束。 さらに、ロシア軍と内務省軍司令官に二日間の休戦とチェチェン側への呼び掛 けの実現を命じたことを明記している。 ただドゥダエフ政権がこれに応じるかどうかはまだ不明だ。 これに 先立ち、ロシア人権問題全権代表のセルゲイ・コワリョフ氏は九日夕、 照応:節 チェルノムイルジン首相と電話で会談し、戦死者の遺体運び出しと重傷者の病 院輸送のため二日間休戦するよう要請した。 ロシア政府の発表はコワリョフ氏の提案を受け入れたものといえる。

※tagrinでのタグ付けの際は文章の先頭にある【節 (文,文章)】に対して,照応関係のタグを付与する.

【節(文,文章)】(1) 大統領府は式典を開催する予定だ。 これに 対し、ある団体がこの行事を批判している。 照応:(1)

集合: (B)

  • 集合に対して文章内にすべての要素が出現している場合

    • 太郎次郎が 学校から 帰ってきた。 (1) (2) ガ:(1,2) 二人は すぐに 出かけた。 (4) ガ:(4) 照応:(1,2)

  • 集合に対して文章に部分集合が出現している場合

    • AのBの関係として(つまり,タグ「ノ」を用いて)付与する.

      • 太郎買った。 (1) (2) ガ:(1) ヲ:(2) ほとんど国産だった。 (3) ガ:(3) ノ:(2)

連体修飾句

連体修飾において,被連体修飾詞が連体修飾節の述語に対して格関係を持つ場 合,その関係名を「内の関係」とし,格関係を持たない場合を「外の関係」と する.

    • 内の関係: (A)

      • 内の関係の場合は何格であるかをタグ付けする.

      • サンマ焼く 。 (1) ガ:(2) (2) ヲ:(1)

      • 「ノ」(所有格)も付与.

      • お母さん怪我し子ども。 (2) ガ: (1)ノ:(1)

    • 外の関係: (A)

      • 外の関係の場合は外の関係であること自体を明示的にタグ付け.

      • サンマ焼く におい。 (1) ガ:外界(一般) (2) ヲ:(1) 外の関係:(2)

      • 外の関係になりやすい語は,「事実」「意見」「目的」など,また「前日」「側面」などの時間・空間を表す語がある.

外界照応

「一人称」,「二人称」,「一般」の粒度でタグを付与.

「一人称」,「二人称」は単数のみとする.つまり基本的には「一人称」は「私(新聞記事の場合は著者)」,「二人称(新聞記事の場合は読者)」となる.

「一般」は「一人称」,「二人称」以外の外界の要素を指す.

    • 一人称: (A)

      • おなか減ったので 帰ろうと 思う。 (1) ガ:(2) ガ:外界(一人称) ガ:外界(一人称)ノ:外界(一人称)

      • A・ビアスの 「悪魔の辞典」風に いうなら、 ガ:外界(一人称) ヲ:(1) さしずめ 政党政治を 限りなく つまらなくするための 談合組織と いえる。 (1) (2) ガ:(1) ガ:外界(一人称) ヲ:(2)

    • 二人称: (A)

      • もう 帰っ寝たらどうですか。 ガ:外界(二人称) ガ:外界(二人称) ニ:外界(一般)

    • 一般: (B)

      • もう 二十日近くなる。 (1) ガ:外界(一般) ニ:(1)

      • もう そろそろ 円安転じるいわ て、 ずいぶん たった。 (1) ガ:外界(一般) ガ:外界(一般) ガ:× (2) ガ:(2) ニ:(1)

※tagrinでのタグ付けの際は文章の先頭にある【一人 称】,【二人称】,【一般】 に対して,外界照応のタグを付与する.

【一人称】 【二人称】 【一般】 (1) (2) もう 帰っ寝たらどうですか。 ガ:(1) ガ:(1) ニ:(2)