自然言語処理グループ

『含意の自動判定』(服部,2015)

テキスト間で成立する含意関係を,自動認識するシステムの研究を行っています.あるテキスト (t1) が別のテキスト (t2) を含意するというのは,t1を読めば,t2が正しいと推論できるという関係を意味します.含意認識の技術は,テキストの意味理解による高度な情報アクセス の実現に向けて重要となります.また,文書要約や質問応答など,自然言語処理の幅広い分野への適用も期待されています.

現在は,テキスト間の表層的な類似度に基づき,含意認識を行うシステムを作成しています.さらに,含意認識システムを利用して,与えられたテキスト が正しいかどうか判定する,真偽判定の問題や,「ロボットは東大に入れるか。」というプロジェクトの一環として,センター試験の社会の問題を解くことに挑 戦しています.

発表実績

    • 服部 昇平, 佐藤 理史, 駒谷 和範: 多段階戦略に基づくテキスト間の意味関係認識. 情報処理学会研究報告,Vol.2013-NL211,No.4, 2013.

    • Shohei Hattori,Satoshi Sato: Team SKL’s Strategy and Experience in RITE2. Proceeding of NTCIR-10 Workshop Meeting, 2013.

    • Shohei Hattori: A Multi-Step Strategy to Recognize Semantic Relations between Sentences in RITE2 Task. Asian Summer School in Information Access 2013, 2013.

『日本語クロスワードを解くシステムの実現』(内木,2014)

クロスワードパズルは世界中で親しまれている言語パズルのひとつです。このパズルは、以下の2ステップで解くことができます。 (1) 「カギ」とよばれるヒントから答となる語を推定する (2) グリッドとよばれるマス目を埋める 「海の反対」というカギに対して、我々は“海”の反対語、たとえば、“りく”などを思い浮かべます。この過程を連想過程と捉えた場合、「Xの反対」という 表現が、Xの反対語の連想を促す役割を果たしていると見なすことができます。このように、カギには特定の種類の連想を促す情報が含まれていることが多いで す。 本研究は、日本語クロスワードを解くシステムを作成します。これにより、人間がクロスワードを解く際に、どのような知識や常識などを使うのか明らかにし、 人間の連想能力のモデル化を目指します。

発表実績

    • 内木賢吾, 佐藤理史, 駒谷和範.日本語クロスワードパズルのカギの解法. 情報処理学会全国大会 講演論文集, Vol.74, No.2, 3R-5, pp.267-268, 2012.

『難しい日本語文の自動検出』(伊藤,2014)

テキスト難易度推定は、文書作成支援に応用できます。テキストの難易度を推定するツールである「帯」は、存在する日本語全体におけるスケールを採用していま す。 「帯」による難易度推定には、ある程度の文字数が必要なため、テキスト全体の難易度は推定できますが、具体的にどの部分が難しいかを推定することは困難で す。そこで私の研究では、「帯」が採用するスケールにおける難しい文を、自動検出するツールの作成を目指しています。現在の研究では、そのための基礎調査 を行っています。

発表実績

    • 伊藤美咲姫, 佐藤理史, 駒谷和範.難しい日本語文の自動検出のための基礎調査. 言語処理学会第19回年次大会 発表論文集, 2013.

『段落見出しの自動生成』(川口,2013)

教科書や新聞記事などのテキストには,見出しが付与されています.見出しは,求める情報を発見し,書いてある内容を把握するのに役立ちます.見出しは通常, 章や節にのみ付与されていますが,段落には付与されていません. 本研究では,段落にも見出しがあると便利だと考え,各段落に見出しを自動的に付与することを目指します.そのために,まず,段落中の重要なキーワードを抽 出します.具体的には,キーワード候補の出現回数,出現位置,キーワードの手がかりになる語などを調べ,それぞれの値をキーワード候補に付与します.付与 した値を計算してキーワードを抽出し,見出しとします. 現在は,キーワードを補足する語の抽出・生成に取り組んでいます.

発表実績

    • 川口人士, 佐藤理史, 駒谷和範.段落見出しの自動生成に向けて. 言語処理学会第19回年次大会, 2013.

『文末表現の正規化』(松木,2013)

日本語には,文末の用言に接続し多様な意味を表す表現(文末表現)が多く出現します. この文末表現には,同じ意味を表す表現が複数存在します.たとえ ば,「〜テほしい」「〜テもらいたい」「〜テくれないか」などは,いずれも依頼を表す文末表現です.データマイニングなどの応用タスクにおいては,これら の表現を一つの代表表現へと言い換えること(文末機能表現の正規化)が求められています. 本研究では,文末機能表現の正規化を実現を目指し,文末表現シソーラスと,それに基づく述部正規化システムを作成します.

発表実績

    • 松木久幸, 佐藤理史.ひらがな列を手がかりとした文末機能表現の自動抽出. 言語処理学会第17回年次大会発表論文集, pp.135-138, 2011.

    • 松木久幸, 佐藤理史, 駒谷和範.文末機能表現シソーラスの編纂に向けて−文末機能表現の網羅的生成−. 言語処理学会第18回年次大会 発表論文集, pp.85-88, 2012.

    • 松木久幸, 佐藤理史, 駒谷和範. 文末機能表現シソーラスと述語正規化システム. 第2回コーパス日本語学ワークショップ予稿集, pp185-194, 9/7発表, 2012.

    • 松木 久幸, 佐藤 理史, 駒谷 和範.文末機能表現シソーラスの網羅性の検証. 情報処理学会全国大会 講演論文集, Vol.75, 1Q-2, 2013.

『日本語テキストの著者推定』(岩崎,2013)

テキストには書き手の個性が現れます.同じような内容を伝えるテキストであっても,著者が異なれば,用いる語彙や言い回しに違いが見られます. 本研究では,テキストに現れる,このような著書の個性を検出し,そのテキストの著者を推定することを目指します.具体的には,個性が表れやすいと考えられ るエッセイを対象にして,著者推定に有効な特徴量を自動的に学習する方法について研究します.さらに,この方法を発展させ,性別や年齢など,未知の著者の 人物像を推定するテキストプロファイリングの研究も行います. このような研究は,文献の真贋問題判定,ブログの著者推定や同一著者,さらに,犯罪の科学捜査などに応用することができると考えられます.

発表実績

    • 岩崎裕也, 佐藤理史, 駒谷和範.エッセイコーパスを用いたテキスト著者の性別推定. 言語処理学会第18回年次大会 発表論文集, pp.525-528, 2012.

    • 岩崎 裕也, 佐藤 理史, 駒谷 和範.エッセイコーパスを用いた著者の生年の推定. 言語処理学会第19回年次大会 発表論文集, 2013.

『回文・アナグラムの自動生成』(鈴木,2012)

日本語の言葉遊びに、回文・アナグラムがあります。 回文は「竹やぶ焼けた」のように前から読んでも後ろから読んでも同じ読みの語句を作るもので、アナグラムは「ミカン→民家」のように、読みが並び替えの関 係にある語句を作るものです。 本研究では文章自動生成の研究の1つとして、図のようにコンピュータで回文・アナグラムを作成することを目指しています。 回文・アナグラムを自動的に生成するためには、例えば「長い訳語だ」は意味が通じる、「語彙焼く蛾だな」は意味が通じないといったように、与えられた文字 列の意味が通じるのかどうかを自動的に判定する技術が必要です。このような技術は、我々が知る限り存在しておらず、本研究はその技術の確立への挑戦という 意味があります。

発表実績

    • 鈴木啓輔, 佐藤理史.文節結合による回文の自動生成.第24回人工知能学会全国大会論文集, 3D4-3, 2010.

    • 鈴木啓輔, 佐藤理史, 駒谷和範.文頭固定法による効率的な回文生成. 言語処理学会第17回年次大会発表論文集, pp.826-829, 2011.

    • 鈴木啓輔, 佐藤理史, 駒谷和範.文節データベースを用いた日本語アナグラムの自動生成. 第10回情報科学技術フォーラム, 5G-2, 9/9発表, 2011.

    • 鈴木啓輔, 佐藤理史, 駒谷和範.アナグラム生成における文節列の意味的適格性の判定法の検討. 言語処理学会第18回年次大会 発表論文集, pp.1308-1311, 2012.

『Wikipediaでの言語横断検索』(岡田,2012)

Wikipediaはweb上に作られている巨大な百科事典です。多くの人は、用語の意味を調べるために、一度はWikipediaを利用したことがあるのではないでしょう か? Wikipediaには多くの言語の版がありますが、それぞれの言語によってエントリー数が大きく異なります。最も大きい英語版のWikipediaは、 日本語版の10倍ものエントリー数があります。そのため、例えば、「磁気結晶異方性」という用語は、日本語版にエントリーはありませんが、英語版には、そ の原語である“magnetocrystalline anisotropy”が存在します。知らない用語の英語の原語を推定することは我々にとって非常に難しいことですが、その英語エントリーを自動的に探し当てる機能が実現できれば、そこから、その用語についての知識を得ることができます。 本研究では、このように『日本語で』英語Wikipediaを検索する機能の実現を目指します。このような機能は、言語横断検索と呼ばれています。

発表実績

    • 岡田昌也, 佐藤理史.大規模訳語候補集合を利用した専門用語翻訳.第24回人工知能学会全国大会論文集, 2C4-1, 2010.

    • 岡田昌也, 佐藤理史, 駒谷和範.英語ウィキペディアを日本語で引く.第25回人工知能学会全国大会論文集, 2F1-1, 6/2発表, 2011.

    • 岡田昌也, 佐藤理史, 駒谷和範.英語ウィキペディアを日本語で引く:性能向上の検討. 言語処理学会第18回年次大会 発表論文集, pp.669-672, 2012.