研究

研究内容

愛媛大学人工知能研究室自然言語処理グループでは次の研究を行っています。

  • HPSG構文解析

  • 文法理論

  • 機械学習

  • ディープラーニング

  • 分散表現の獲得

  • シンボルグラウンディング

  • 品詞解析

  • テキスト含意関係認識

  • 評判分析

  • 機械翻訳

  • 自動要約

  • 文法誤り訂正

HPSG構文解析の研究


このグループでは主辞駆動句構造文法(HPSG)と呼ばれる文法理論に基づく構文解析の研究を行っています。HPSGは言語学の分野において研究されている文法理論であり、CCGと並んでもっとも高度に洗練された文法理論の一つと言われています。HPSGは語彙化文法の一種で、一般化された少数の規則と高度に複雑な語彙項目を組み合わせることによって様々な言語現象をエレガントに説明します。素性構造と呼ばれるグラフ構造を用いて文法規則や語彙項目を記述し、素性構造に対する単一化により文法的な制約と句構造を同時に与えます。このグループでは、HPSG文法を獲得するための方法論や、HPSGの解析の高速化、高精度化について研究をしています。

具体的な研究内容は次のようになります。

  • HPSG文法開発: HPSGは精緻な制約で記述されており、非常に洗練された文法理論と考えられていますが、一方で、普通の文を解析しようとしても制約を満たす解がないため解析に失敗するということがよく起こるという脆弱性も指摘されています。これは語彙項目の不備が主な原因で、ある語彙に対し想定していない言語現象が現実の文章にあらわれるためです。そこで、構文解析済みの構文木集合から帰納的に一貫性のある語彙項目を獲得する文法開発手法を考案しました。この手法によって新聞や医学生物学論文を解析できるほど頑健な文法の開発に成功しました。

  • HPSG構文解析のためのスーパータガー: 語彙項目選択のための系列解析器はスーパータガーと呼ばれます。スーパータガーの確率分布を構文解析のための条件付き確率場の参照分布とすることで高精度化(86.3%の精度が88.8%まで向上)と高速化(2.4倍程度)を同時に実現しました。

  • HPSG構文解析のための決定性解析: デフォルト単一化と呼ばれる特殊な単一化を用いれば文法規則の適用に失敗することがほぼありません。デフォルト単一化を用いて、1単語ずつ逐次的に解析する決定性HPSG構文解析を実現しました。技術的にはシフトリデュース構文解析にデフォルト単一化を用いて実現しています。

  • HPSGによる格解析: 「太郎は花子が好きだ」という文に対して、「太郎は」が「好きだ」に係っていて、「花子が」が「好きだ」に係っているということがわかっても、実際に誰が何を好きなのかそのままではわかりません (実際、太郎が花子を好き、という解釈と、花子が太郎を好き、という解釈の両方がありえます)。係り受けや句構造だけを解析するのではなく、述語の主格や目的格などの格を解析することは格解析と呼ばれます。日本語HPSGによる格解析の研究を現在行っています。

文法理論の研究


このグループでは文法理論に関する研究も行っています。具体的には次の研究を行っています。

  • 組合わせ範疇文法(CCG)の左隅変換: 構文解析は木構造で表現される句構造を解析するため、二次元的な解析が必要となり、解析のための時間とメモリが多く必要になってしまいます。CCGには、文法規則の適用を遅延させる(順序を変える)特殊な規則があるため、これらの規則を利用して、CCG構文木を左下がりの構文木に変換する研究を行っています。左下がりの構文木にすることで一次元的な構文解析ができることが期待されます。

  • HPSGにおける項クラスター等位接続構造の解析: “He gave a teacher an apple”は一般に”gave”が”a teacher”と結びついて、さらに”an apple”と結びついて動詞句となるのですが、”He gave a teacher an apple and a policeman a flower”を解釈するためには、”a teacher”と”an apple”が結びついて、”a policeman”と”a flower”が結びついて、それらの句構造が等位接続したうえで”gave”と結びつかないと説明できません。この言語現象のことを項クラスター等位接続構造といいます。この現象をHPSGで解釈するための研究を行っています。

機械学習の研究


90年代以降、人手によって正解が与えられた注釈付きコーパスが多くの自然言語処理タスクのために開発され、00年代以降それらのデータから言語処理システムのパラメータを自動的に学習することが行われるようになりました。これらの技術は機械学習と呼ばれる研究分野で研究されており、多くの自然言語処理研究者も機械学習に関わりをもつようになりました。機械学習は自然言語処理だけでなく多くの人工知能技術の基礎技術となっています。

このグループでは次の機械学習の研究を行っています。

  • L1-ロジスティック回帰に基づくオンライン特徴選択: 機械学習の高精度化のために大量の特徴を用いることが考えられますが、計算機の計算時間やメモリの制限のため限られた数の特徴しか用いることができません。そこで特徴を少しずつ増やして、選択して、ということを逐次的に行うオンライン特徴選択の研究を行っています。L1-ロジスティック回帰は機械学習におけるパラメータ最適化と特徴選択を同時に行うことが可能なモデルとなっており、L1-ロジスティック回帰を基にしてオンライン特徴選択を実現しています。




ディープラーニングを用いた自然言語処理の研究


多層ニューラルネットワークに対する研究が大きく進み、オンライン学習による学習の効率化、事前学習による半教師有り学習、Dropoutなどの一般化、多層化による抽象化などの研究が進んだ結果、画像認識においては、従来手法を大きく上回る非常に高い精度を実現することが出来るようになりました。これらの多層ニューラルネットワークを用いた学習は深層学習(ディープラーニング)と呼ばれています。また、多層ニューラルネットワークは特徴を自動的に学習する、というふうに考えられています。顔認識において、低いレイヤーでは線分などのプリミティブな要素が学習され、次のレイヤーでは顔のパーツが学習され、最終レイヤーでは顔全体が認識される、というように段階的な特徴の学習(抽象化)が行われています。このことをもって多層ニューラルネットワークは高い抽象化の能力を持っているというふうに言われています。言語処理においても、記号の概念獲得や、従来の自然言語処理の性能向上が期待され、ディープラーニングによる研究が盛んに行われています。

このグループでは以下のディープラーニングを用いた自然言語処理の研究を行っています。

  • ディープラーニングによる評判分析

  • 分散表現の獲得

  • シンボルグラウンディング

  • ニューラル機械翻訳




分散表現の研究


word2vecと呼ばれる単語に対する概念ベクトルを獲得する手法が発表されて以降、ディープラーニングの発展とともに、大きく注目されている研究分野が、分散表現の研究です。分散表現とは、密な低次元(200次元程度)の実数ベクトルによる言語概念表現のことです。ベクタースペースモデルとも呼ばれています。word2vecが注目を浴びたのは、分散表現(ベクトル)の足し算引き算により、意味の計算ができるということがわかったためです。例えば、(kingに対するベクトル) – (manに対するベクトル) + (womanに対するベクトル)が(queenに対するベクトル)に非常に近くなるということが報告されています。このグループでは次の分散表現に関する研究を行っています。

  • word2vecに基づく述語項構造の分散表現獲得




シンボルグラウンディングの研究


従来の自然言語処理では記号と記号の関係だけを用いてモデル化と推論を行っていたため、実世界との対応をどうやってとるのか、実世界との対応をどう保証するのか、といった問題が指摘されています。この問題は、シンボルグラウンディング問題(記号接地問題)と呼ばれ、近年、画像認識と自然言語処理の分野で盛んに研究されるようになっています。特に、画像からのキャプション生成や、言葉で指示されたものを画像から発見する研究が盛んに行われています。

このグループでは次のシンボルグラウンディングに関する研究を行っています。

  • 深層学習を用いた実世界参照による分野特有の固有表現の認識: 将棋盤面情報を実世界情報として用い、将棋固有名の解析を行う研究を行っています。将棋盤面情報の抽象化および将棋盤面情報とテキストをつなぐ処理を実現するためにディープラーニングを用いています。

  • キャプションからの画像生成を用いたニューラル機械翻訳のためのシンボルグラウンディング




品詞解析の研究


英語の文”I have a pen.”に対して、”I/代名詞 have/動詞 a/冠詞 pen/普通名詞 ./ピリオド”といった品詞を解析することは品詞解析と呼ばれ、基本的かつ重要な基礎技術として考えられています。このグループでも品詞解析の研究を行っています。

  • 能動学習と自己学習

  • 疑似サンプル生成

  • ディリクレ事前分布によるスムージング

  • マルチタスク学習




テキスト含意関係認識の研究


テキスト含意関係認識(textual entailment recognition)は、ある2つの文が与えられたとき、それらの文の間に含意関係が成り立つかどうか判定することです。これは論理学でいうところの推論(“(P⇒Q)∧(Q⇒R)”であるとき”P⇒R”が成り立つことを判定すること)と似ていて、論理式の代わりに文が与えられるためテキスト含意関係認識と呼ばれます。テキスト含意関係認識を実現することで、賢い質問応答システムが実現できることが期待されています。このグループでは、マルコフ論理ネットワークを用いた含意関係認識を行いました。




評判分析の研究


ある商品に関する評判をテキストから自動的に抽出することを評判分析といいます。具体的には、ある商品に関する感想を書いたテキストから、その商品の評点(例えば、良い/悪いといった2値や、1から5までの5段階評価など)を自動的に推定することを目的とします。このグループでは楽天データを用いて、楽天商品の評判分析を行っています。




機械翻訳の研究


ある言語から別のある言語に自動的に文章を翻訳する技術のことを機械翻訳といいます。機械翻訳は世界的にたくさんの研究グループにより研究されていて、自然言語処理分野を代表する非常に大きな研究領域となっています。従来の機械翻訳の手法として、統計機械翻訳やルールベース機械翻訳などがありましたが、近年、ディープラーニングの技術を用いたニューラル機械翻訳が盛んに研究され始め、大きな注目を浴びています。ニューラル機械翻訳は、従来手法よりも高い翻訳精度を実現し、また、人間が行う翻訳に近い優れた翻訳品質を実現していると考えられています。ここのグループもニューラル機械翻訳に注目し、ニューラル機械翻訳の精度を高める研究や、ニューラル機械翻訳におけるシンボルグラウンディングの研究を行っています。日本語は世界的にみてかなり特殊な言語となっており、日本語の機械翻訳は非常に難しいといわれていますが、ニューラル機械翻訳によってその壁も克服されようとしています。このグループでは次の研究を行っています。

  • 語順並べ替えの前編集による日英機械翻訳

  • サンプリングを用いたドメイン適応

  • 畳込みニューラルネットワークを用いたニューラル機械翻訳

  • 敵対性生成モデルを用いたニューラル機械翻訳

  • キャプションからの画像生成を用いたニューラル機械翻訳のためのシンボルグラウンディング




自動要約の研究


長い文書を自動的に要約する技術は自動要約と呼ばれます。自動要約のタスクは一般に字数制限があるなかでより多く元の文書の情報を再現することを目標としていて、字数制限を制約とする整数線形計画法(ILP)を用いた手法が高い精度を実現することで知られています。このグループでは字数制限がない場合にも適用可能な整数線形計画法による自動要約について研究を行っています。




文法誤り訂正の研究


文書の中にある文法誤りを自動的に検出/訂正する技術は自動校正または文法誤り訂正と呼ばれています。近年、Konan JIEM Learner CorpusやNUCLE corpusなどの文法誤り訂正の正解データが利用可能となり、盛んに研究されつつあります。このグループでもロジスティック回帰などを用いて文法誤り訂正の研究を行っています。