自然言語処理研究会では、自然言語処理に関する研究開発を幅広くタイムリーに奨励することを目的として、第220回研究会から新しい表彰制度「自然言語処理研究会優秀研究賞」を設置しました。これは、各回の研究会において投稿される予稿の中から新規性、有用性、斬新性、将来性等の点で特に優れたものを表彰するものです。表彰件数は全体の10%程度とし、研究会の幹事と運営委員からなる選考委員会が選考します(選考委員はCOIを考慮して選出し、幹事にCOIがある場合にはCOIのない幹事または運営委員にて選考委員会を開催します)。選考は事前に行い、研究会開催時の最後に発表・表彰します。また、山下記念研究賞への研究会推薦の参考とします。
※選考の結果授与対象なしとなることがあります
法令文における法令間委任関係の自動抽出
○藤田剛・澤田悠冶・坂井優介・渡辺太郎(奈良先端大)
(優秀賞選考委員コメント)
本論文は、日本の法令における委任関係の自動抽出や人手アノテーション支援という新規性の高いタスクに取り組んだ優れた研究です。実験が緻密に設計されている点が特に評価できます。委任関係キーワード抽出では3種類の手法を比較し、単語分割誤りへの対処法も検証しています。委任先条文特定では、法令の階層構造における粒度を変化させる段階的学習手法を提案するなど、多角的な視点からの実験を実施しています。考察も充実しており、成功例・失敗例の事例分析により今後の課題も明確化しています。研究の完成度が高く、優秀論文として推薦します。
JMTEB and JMTEB-lite: Japanese Massive Text Embedding Benchmark and Its Lightweight Version
○李 聖哲(SB Intuitions株式会社/早稲田大学)・大萩 雅也・李 凌寒・福地 成彦・柴田 知秀(SB Intuitions株式会社)・河原 大輔(早稲田大学)
(優秀賞選考委員コメント)
本研究は、日本語テキスト埋め込みの評価を標準化し、加えて軽量版ベンチマークを構築することで実利用を容易にした点において、高い有用性が認められます。成果は国際的ベンチマークであるMMTEBにも採用され、研究コミュニティにおける共通基盤として機能し始めています。また、多数の埋め込みモデルの比較から得られた知見も有益であり、基盤整備と比較分析の両方から日本語NLPの発展に寄与するものと考え、優秀研究賞に推薦いたします。
誤り単語の混入による単語単位翻訳誤り検出の頑健性評価
岩國 巧(奈良先端科学技術大学院大学)・出口 祥之・永田 昌明(NTTコミュニケーション科学基礎研究所)・上垣外 英剛・渡辺 太郎(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
企業名などの固有名詞や金額などの数値の誤訳は、金融や医療などの分野では情報の正確性の低下に直結する深刻な問題です。本論文は、機械翻訳における単語レベルの翻訳誤りに着目し、その誤り検出性能の頑健性を評価しています。具体的には、人工的に誤りを加えた誤訳文を自動的に作成し、既存評価指標であるXCOMETの誤り検出性能を評価し、その特性を明らかにしています。機械翻訳の実社会応用に向けても意義深く、今後の展開にも期待できることから、優秀研究賞に推薦します。
実在しないエンティティや出来事に関する合成文書を用いたRAGベンチマークの構築
李聖哲(SB Intuitions株式会社 / 早大)・大萩雅也・塚越駿・福地成彦・柴田知秀(SB Intuitions株式会社)・河原大輔(早大)
(優秀賞選考委員コメント)
本研究はLLMの事前学習に含まれない知識を問うRAGベンチマークを構築しており、検索を用いずLLMの事前知識のみに頼る回答方法では提案ベンチマークにおいて高い性能を達成できないことが実験により示されています。人手による合成文書の選別やQA作成のコストについて今後の改善が期待されるものの、RAGベンチマークおよびその構築方法について新規性・有用性が高いと評価し、実験の定量的・定性的な分析も優れているため、優秀研究賞に推薦します。
目標文難易度を連続的に制御可能なテキスト平易化
柳本大輝・梶原智之(愛媛大)・荒瀬由紀(東京科学大学)・二宮崇(愛媛大)
(優秀賞選考委員コメント)
本研究はテキスト平易化のタスクにおいて、出力文の難易度を連続的な指標で制御する手法を提案、検証しています。具体的には、入力文を符号化して得られた文ベクトルに対し、目標難易度に応じてノルムを操作した上で複合化を行うことで、様々な難易度の文を生成可能にしています。手法はノルムを活用する点、連続的に制御が可能な点がとても独創的であり、また実験により提案手法の有効性が示されており大変評価されるものと思います。ノルム操作のアイデアを基に手法のさらなる拡張や、言語教育分野での応用など今後のさらなる発展が期待されます。
単語の通時的な類似度行列による意味変化パターンの分析
木山朔(東京都立大学)・相田太一(東京都立大学)・小町守(一橋大学)・小木曽智信(国立国語研究所)・高村大也(産業技術総合研究所)・持橋大地(統計数理研究所)
(優秀賞選考委員コメント)
本研究は、単語の通時的な意味変化をモデル化する新たなフレームワークを提案しています。期間ごとに分割された通時的コーパスを対象に、単語共起尤度行列の特異値分解を用いた単語ベクトルの比較を行い、通時的な意味の変化を捉える手法は有用であり、事例の選定や解釈も興味深い成果を提供しています。一方、語の意味の変化の検出については擬似データに留まった評価や、他手法との比較が不足している点は課題として残ります。それでも実験・分析は充実しており、提案手法の利点と有効性を十分に示している点で、優秀賞に値する成果と評価します。
機械は仕様を考慮して翻訳できるか:統合報告書の英訳の場合
萱野陽子(国立情報学研究所)・菅原朔(国立情報学研究所)
(優秀賞選考委員コメント)
本研究は、NLP分野で十分に顧みられてこなかった翻訳仕様への対応という重要な課題に挑戦し、企業統合報告書の翻訳を題材に、実務に即した多面的な評価を行っている。実験結果では通常は正解とされる公式翻訳(人手翻訳)が仕様を考慮すると最も低評価になった点など、問題設定を含めて新たな視点を提供している。一方で、タスクやデータの限定性により、結論の一般化には課題も残りますが、よく検討された方法論や今後の発展可能性を含めて意義深い研究であり、優秀賞に値する成果と評価します。
LLMに日本語テキストを学習させる意義
齋藤 幸史郎(東京工業大学),水木 栄(東京工業大学),大井 聖也(東京工業大学),中村 泰士(東京工業大学),塩谷 泰平(東京工業大学),前田 航希(東京工業大学),Ma Youmi(東京工業大学),服部 翔(東京工業大学),藤井 一喜(東京工業大学),岡本 拓己(東京工業大学),石田 茂樹(東京工業大学),高村 大也(産業技術総合研究所),横田 理央(東京工業大学),岡崎 直観(東京工業大学)
(優秀賞選考委員コメント)
本論文では,日英対照的に設計した19個の評価タスクにおいて35種類のLLMの性能を分析することにより,LLM間の性能の違い,タスクごとの性能の違いを生み出す要因を詳細に分析している.これらの分析結果・知見は今後の日本語LLMの訓練と評価データの設計に重要な示唆を与えるものであり,有用性を高く評価し,優秀研究賞に推薦する.
Mamba ブロックが帰納ヘッドタスクを実行するメカニズム
山本 悠士(東京理科大学),松崎 拓也(東京理科大学)
(優秀賞選考委員コメント)
状態空間モデルが近年再度注目されている中,有力なモデルMambaを取り上げ,記憶と想起のメカニズムについて数学的な観点から分析・議論を行っている.部分的かつ制限された状況下ではあるが,丁寧な議論が展開されており,状態空間モデルに基づく深層学習手法の発展に寄与する内容であるため,優秀研究賞に推薦する.
文字言語モデルからの単語言語モデルの教師なし合成
村脇 有吾(京都大学)
(優秀賞選考委員コメント)
幼児の言語獲得過程に着想を得て,事前訓練済文字言語モデルと単語境界モデルから,単語分割の教師データなしに単語言語モデルを構築する新しい手法を提案している.評価実験においては先行研究に匹敵する性能を達成し,現在主流であるサブワード分割とは異なる文字単位の処理への足がかりを示しているため,優秀研究賞に推薦する.
RECORD TWIN: 病歴を保ちつつ表現が異なる症例の生成
清水 聖司(奈良先端科学技術大学院大学),矢田 竣太郎(奈良先端科学技術大学院大学),若宮 翔子(奈良先端科学技術大学院大学),荒牧 英治
(優秀賞選考委員コメント)
匿名化による安全なコーパスの構築という医療言語処理分野の課題に対して,エンティティのk-匿名化とLLMによるテキスト生成というアプローチを提案している.解決しようとする課題の社会的意義の高さに加えて,詳細なエラー分析を行うことでさらなる精度向上の道筋を示しているため,優秀研究賞に推薦する.
原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成
福田 りょう(奈良先端科学技術大学院大学),土肥 康輔(奈良先端科学技術大学院大学),須藤 克仁(奈良先端科学技術大学院大学),中村 哲(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究は日英同時翻訳において順送り方略のみを対象としたシステムを構築するための第一歩として、順送り方略を対象としたデータセットを作成しています。課題設定は新規であり、同時翻訳ではデータセットが希少なことを考えると本研究が提供する価値は高いものであるといえます。またデータセットは人手評価で品質調査が行われており、質の点で十分であると考えられます。今後、本研究で作成されたデータセットによる順送り方略だけを使用するシステムの実現及び評価が期待されます。
文法誤り訂正におけるメタ評価の再考
小林 正宗(東京都立大学),三田 雅人(サイバーエージェント株式会社/東京都立大学),小町 守(一橋大学)
(優秀賞選考委員コメント)
本研究は、文法誤り訂正における自動評価尺度の性能を調べるメタ評価のためのデータセットを構築し、従来のメタ評価手法の問題点やニューラルベースの文法誤り訂正システムを評価する際の注意点を明らかにしている。本研究で作成されたデータセットおよび考察は、これまでの研究では解明されていなかった重要な気づきを与えており有用性が高い。また調査結果をもとに今後の評価のための実践的な指針を与えており、文法誤り訂正の発展に大きく寄与する研究だと考えられることから優秀研究賞に推薦する。
大規模言語モデルの統一評価に向けた指示テンプレートの提案及びその評価結果の考察
坂井 優介(奈良先端科学技術大学院大学),ノヘイル アダム(奈良先端科学技術大学院大学),上垣外 英剛(奈良先端科学技術大学院大学),渡辺 太郎(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究では、大規模言語モデルの自然言語理解性能を評価するための新たなデータセットを構築し、指示テンプレートごとの性能の分散を考慮した評価指標を提案している。指示テンプレートへの頑健性という新たな観点で評価できる枠組みは、大規模言語モデルの公平な評価を行う上で重要な観点であり有用性が高いと考えられる。また、構築したデータセットを用いた実験では示唆に富む考察が行われていることから、優秀研究賞に推薦する。
未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
坂井 優介(奈良先端科学技術大学院大学),上垣外 英剛(奈良先端科学技術大学院大学),林 克彦(北海道大学),渡辺 太郎(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究では、事前学習済み言語モデル (PLM) の記憶能力と推論能力を切り分けて評価する方法とそのデータ構築手法を提案している。知識グラフ補完タスクを対象に多角的な実験および分析を行っており、PLMの推論能力について有用な知見を提供するとともに、その実験手法は他のタスクでの応用の期待もできる。また、未知の知識に対するPLMの推論能力はNLPコミュニティにとって関心の高い内容であることから、優秀研究賞に推薦する。
系列変換モデルにおける語彙制約を用いた複数出力候補の統合
宮野 稜大(大阪大学),梶原 智之(愛媛大学),荒瀬 由紀(大阪大学)
(優秀賞選考委員コメント)
本研究では,まず,系列変換モデルの複数出力候補に対して単語単位の正誤判定を行い,その後,それらの判定結果をもとに改めて語彙制約付き生成を行う品質改善手法を提案し,言い換え生成および自動要約タスクにおいて,その有効性を実験結果から示している.提案手法は,系列変換モデル・正誤判定モデルのどちらの構築においても特別な訓練データを必要とせず,様々な生成タスクに対して汎用的に適用可能であることが期待できる.その汎用性と有用性を高く評価し,優秀研究賞に推薦する.
招待講演企画のため該当なし
言語モデルの第二言語獲得効率
大羽 未悠 (NAIST),栗林 樹生 (東北大/Langsmith),大内 啓樹 (NAIST/理研),渡辺 太郎 (NAIST)
(優秀賞選考委員コメント)
本研究では、言語モデルの言語転移について、第二言語における文法の獲得への影響という観点で様々な設定を用いて調査している。言語モデルの第二言語獲得というテーマ設定の独創性が非常に高く、シンプルな道具立てによる検証の中で、ヒトの第二言語獲得の難易度と言語モデルの獲得難易度で差があるなど多くの発見があり、実験結果に対する考察も示唆に富んでいる。また、論文自体も明瞭に記述されており読み物としての完成度が高いことから、優秀研究賞に推薦する。
KWJA:汎用言語モデルに基づく日本語解析器
植田 暢大(京大),大村 和正(京大),児玉 貴志(京大),清丸 寛一(京大),村脇 有吾(京大),河原 大輔(早大),黒橋 禎夫(京大)
(優秀賞選考委員コメント)
本論文は、事前学習済みモデルをもとに日本語における様々な基礎解析タスクに対するモデリングを行い、成果をツール群として一般に公開しています。ツールは今後広範な日本語タスクにおいて有用となること必至である上、個別の解析器の評価とそれに伴う今後の課題が明確かつ詳細に議論されているため、日本語自然言語処理において疑いなく重要な貢献であると言え、優秀研究賞として推薦いたしました。今後論文中でなされた議論をもとにさらにツールが発展していくことを期待しています。
説明文生成を用いた動作行動予測
中村 泰貴(東大),河野 誠也(理研),湯口 彰重(理研),川西 康友(理研),吉野 幸一郎(理研)
(優秀賞選考委員コメント)
本研究では,人と共生するAIの第一歩として動作行動予測を言語化する枠組みを提案し,独自のデータセットを構築している.また,構築したデータを用いて自動評価と人手評価を行い提案手法の効果を確認した.問題設定は限定的ではあるが,本論文で議論されている内容は多くのアプリケーションにとって有用な知見と考えられるため優秀賞として推薦する.
フレーズアライメントと文構造に基づくデータ拡張を用いた頑健な自然言語生成
山本 賢太(京大), 河野 誠也(理研), 河原 達也(京大), 吉野 幸一郎(理研)
(優秀賞選考委員コメント)
言語生成における重要課題である過生成を緩和することを目的とし、フレーズアラインメントと文構造を利用した独創的なデータ拡張手法を提案し、人手評価により有用性を確認している。既存手法との組み合わせも容易で、広くニューラルネットワークを用いた言語生成への活用が期待できることから、優秀研究賞に推薦する。
テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討
佐藤 裕明(NHK技研), 小森 智康 (NHK技研), 三島 剛(NHKエンジニアリングシステム), 河合 吉彦(NHK技研), 望月 貴裕(NHK技研), 佐藤 庄衛(NHK技研), 小川 哲司(早大)
(優秀賞選考委員コメント)
本研究では、音声とテキストのペアデータからのモデル化が必要となるEnd-to-End音声認識の枠組みにおいて、テキストのみのリソースを活用する新たな方法を提案している。提案手法は、Intermediate-CTCの特徴を明示的に利用してテキストを連続ベクトル系列に変換する仕組みをあらかじめ準備し、テキストのみのデータを連続ベクトル系列に変換してEnd-to-End音声認識の学習に利用するというものであり、新規性と実用的を兼ね備えている。また、提案手法は、従来の代表的な方法であるshallow fusionと併用可能であり、有効性が高い点も評価できる。提案手法の記載も明瞭であり、論文としての完成度も高い。以上の点から、優秀研究賞に値する論文と評価できる。
レーシングゲーム実況生成
石垣 達也(産総研), トピチ ゴラン(産総研), 濵園 侑美(産総研/お茶大), 能地 宏(産総研/Leapmind) 小林 一郎(産総研/お茶大), 宮尾 祐介(産総研/東大), 高村 大也(産総研)
(優秀賞選考委員コメント)
複数モダリティを考慮することが必要なテキスト生成の新たなタスクを提案し、実験・分析を通じて新たな知見を得た優れた研究であり、また、データセット公開によって今後の更なる発展への寄与も期待できることから、優秀研究賞に推薦する。
事例ベース推論を行うニューラルモデルの説明性とハブ現象の関係
佐藤 俊(東北大), 大内 啓樹(NAIST), 塙 一晃(理研/東北大), 佐々木 翔大(理研/東北大), 乾 健太郎(東北大/理研)
(優秀賞選考委員コメント)
本研究ではIdentity Subclass Testと呼ばれるラベル付けの一貫性を問う指標を用いて、事例ベース推論におけるハブ現象での説明性を分析したものです。論文中ではハブの発生頻度と予測性能を損失関数や類似尺度の違いから分析し、詳細な分析と考察が行われています。論文としての完成度が高く、有用な知見を多く含んでいることから、優秀研究賞として推薦します。今後、評価のための分類問題の拡張や、より様々な言語現象を対象とした分析として発展されることを期待します。
確率的潜在意味スケーリング
持橋 大地 (統数研)
(優秀賞選考委員コメント)
本研究では潜在意味スケーリングを統計モデルとして実現する手法を提案しており、教師なし、あるいは半教師ありで柔軟に利用可能なモデルを実現しています。この実現のため、単に既存手法を確率化するだけでなく、ガウス・エルミート求積を使ってパラメータ推定の一致性を担保するなど、技術的独創性が高い点を評価して優秀研究賞として推薦しました。複数のデータを対象に評価を行っており有用性評価が十分に行われていますが、今後様々な一般テキストでの有効性が示されることを期待します。
議論の構造化と妥当性評価のためのBayesian Argumentation-Scheme Networksの提案とアノテーションデータ作成
近藤 崇宏(東大),鷲尾 光樹(東大),林 克彦(東大),宮尾 祐介(東大)
(優秀賞選考委員コメント)
述語論理とベイジアンネットワークを用いてargumentation schemesの定式化をする方法論を示し,それを利用したデータセットの構築方法についても述べられている.これまでの研究においてはアノテーションによるデータ作成の難しさが課題であったが,ベイジアンネットワークを元にそれに対応するテキストを生成するという手順で生成することにより,比較的規模の大きなデータを構築できることを示している.そのアイデアは新規性が高く,これまでのscheme定義をカバーしつつ,議論における論理を統一的に形式化できることから有用性も高く評価できる.提案手法を検証するためのデータセットはカバーする表現が限定的であるため今後のより充実した実験的評価が望まれるが,議論マイニング分野の研究の将来的な発展と促進が期待できると考えられる.
招待講演企画のため該当なし
ニューラル機械翻訳のためのバイリンガルなサブワード分割
出口 祥之(愛媛大)・内山 将夫(NICT)・田村 晃裕(同志社大)・二宮 崇(愛媛大)・隅田 英一郎(NICT)
(優秀賞選考委員コメント)
対訳関係を考慮したサブワード分割を行うことにより、翻訳性能を向上させる手法を提案している。 対訳コーパスを利用して原言語と目的言語のトークン数の差を最小化するというシンプルなアイデアにより、 複数の言語ペアにおいて翻訳性能の向上を達成しており、その有用性を高く評価する。 同様の着想を翻訳以外のタスクに適用できる可能性もあり、研究の将来性も併せて評価できる。 また、提案手法により得られるサブワードの効果について詳細な検証がなされており、 その実験等の記述も明瞭であることから、論文としての完成度も高い。 以上の理由により、優秀研究賞に推薦する。
潜在的なトピック構造を捉えた生成型教師なし意見要約
磯沼 大・森 純一郎(東大)・ボレガラ ダヌシカ (リヴァプール大)・坂田 一郎(東大)
(優秀賞選考委員コメント)
本論文では、生成型教師なし要約のために、トピックに関する木構造を導入し、その木構造の深さに応じて意味的な粒度が変化して要約文が構成されるという着眼点を導入している。このアイデアを実現するために、再帰的な混合ガウス分布に基づく木構造ニューラルトピックモデルと自己回帰型文生成モデルを組み合わせる手法を提案しており、そのアイデアは非常に明瞭かつ、提案手法自体も先駆的な取り組みと言え新規性も高い。近年の代表的な手法と比較を行い、その有用性を評価できており、定性的、および定量的な分析の両者で提案手法の特徴を深堀りできている点も高く評価できる。論文自体もよく構造化して記載されており読み物としての完成度も高く、優秀研究賞に値する論文と評価できる。
該当なし
該当なし
階層的な注意機構に基づき統語的な先読みを行う文抽出手法
上垣外 英剛(東工大)・奥村 学(東工大)
(優秀賞選考委員コメント)
依存構造上の親方向への再帰的な注視機構を拡張し,子方向への注視・先読みを行い選択的制約として利用する文圧縮手法を提案している。統語情報を積極的にかつ有効に活用できる手法であり自然言語処理研究としてよく練られた研究であること,提案手法により従来研究を上回る精度を達成し,特に長文に対しての改善が顕著であること,また例示や評価・分析を含めた論文としての完成度が高いこと,から優秀研究賞に推薦する。
該当なし
事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳
今村 賢治(NICT), 隅田 英一郎(NICT)
(優秀賞選考委員コメント)
様々なタスクで有用性が示されているBERTを機械翻訳のエンコーダに利用する際に、エンコーダにそのまま使う方法ではまともな訳出がでないという問題点を示し、その問題に対応するためにBERTエンコーダを固定して学習した後に全体を微調整するという2段階の訓練方法を提案し、その有効性を実験的に確かめている。系列変換モデルに広く利用可能な有用性の高い手法を提案していること、様々な角度から提案手法の有効性を検証していること、論文の記述も丁寧で完成度が高いことから、優秀研究賞に値する論文であると判断した。
鏡映変換に基づく埋め込み空間上の単語属性変換
石橋 陽一(NAIST), 須藤 克仁(NAIST), 吉野 幸一郎(NAIST), 中村 哲(NAIST)
(優秀賞選考委員コメント)
広く知られたアナロジーに基づく語の属性変換に対して、語の属性に依存してしまう問題に着目し、語の属性の知識がなくともその属性を反転させる鏡映変換ととらえ、鏡映変換を実現する関数を学習することによって解決する手法を提案しており、独創性が特に高く評価できる。独創的な着想であることもあり、有用性の実証については今後に期待したい点が残るものの、エラー分析が詳細に行われており原稿も分かりやすく記述内容が高く評価できる。以上の理由により、優秀研究賞に推薦する。
クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張
鈴木 正敏(東北大), 松田 耕史(理研/東北大), 大内 啓樹(理研/東北大), 鈴木 潤(東北大/理研), 乾 健太郎(東北大/理研)
(優秀賞選考委員コメント)
Quizbowlタスクを(超)多クラス分類問題として扱い、BERTを用いて効率的に解く方法を提案している。また、タスクの性質をよく捉え、Wikipediaを利用したデータ拡張により大幅な精度向上を達成している。手法の応用範囲が広く、また事前学習済みBERTを用いた場合であっても擬似データが有効であることを示していることは有用性が高い。評価や結果の分析も丁寧に行われており、読み物としての完成度も高いことから、優秀研究賞に推薦する。
含意関係に基づく見出し生成タスクの見直し
松丸 和樹(東工大), 高瀬 翔(東工大), 岡崎 直観(東工大)
(優秀賞選考委員コメント)
見出し語生成という既存のタスクをモデルに任せて解くのではなく、現在のデータセットの持つ特性からアプローチし、課題を明らかにしている点が非常に評価できる。見出し生成タスクに閉じない範囲においても、タスクの課題抽出を行うためにどのように分析を進めるべきかが示唆されている論文である。また、実験においても最新のセットアップを使用しており、実用性の観点からも十分に評価できる。
コピー機構を用いたクエリ指向ニューラル生成型要約
石垣 達也(東工大), 黃 瀚萱(国立台湾大), 陳 信希(国立台湾大), 高村 大也(産総研/東工大), 奥村 学(東工大)
(優秀賞選考委員コメント)
以前から要約タスクで用いられていた、クエリや文書中の単語を要約文に含めるという手法に着目し、深層学習におけるコピー機構の文脈で再解釈している点を評価した。温故知新とも呼べるこのようなタイプの発想が他分野への波及が期待できる点、また論文の記述内容の質も総じて高い点から、優秀賞に値する論文であると判断した。
複数言語複数タスクを扱う発話意図推定モデリングのための敵対的学習の検討
増村 亮,篠原 雄介,東中 竜一郎,青野 裕司(NTTメディアインテリジェンス研究所)
(優秀賞選考委員コメント)
近年注目されているマルチタスク学習とマルチリンガル学習を統合する枠組みにおいて,言語やタスクの異なりに不変な特徴を学習することで学習能力を改善する新しい敵対的学習手法を提案している。さらに,評価実験によって提案手法が発話意図推定タスクにおいて有効であることも検証している。言語推定,タスク推定という二つの部分問題に対し,特徴量に入れ込みたくない情報を打ち消すための敵対的学習法を巧みに組み合わせて導入するアイディアは発話意図推定に限定されず広く言語処理関連タスクに応用可能である点は高く評価できる。また,主張したい点や込み入ったロジックの説明,考察なども上手く整理されており,研究成果報告としての完成度も高い。今後は,複数言語,複数タスクにおいても有効性が検証されることを期待する。
A proposal for a unified corpus of the Ainu language
Karol Nowakowski, Michal Ptaszynski, Fumito Masui (北見工業大学)
(優秀賞選考委員コメント)
本論文は186万文字からなるアイヌ語の大規模なコーパスを構築したことを報告している。現在アイヌ語は日常的には使用されておらず、電子化された言語資源の量も限られているため、現存するあらゆる資源を集めるという方針で構築されており、またそれらを統一フォーマットで扱えるように設計されている。アイヌ語のここまで大規模なコーパスは他に存在しておらず、言語学・言語処理などのアイヌ語研究のインフラとしての重要性のみならず、社会・文化的にも重要な意義をもった研究であるため、優秀研究賞に推薦する。なお現時点ではコーパスは権利関係上一般公開はされていないようだが、将来的に公開されることを強く願う。
意味役割付与のためのスパン選択モデル
大内 啓樹(理化学研究所/東北大学), 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本論文では、意味役割付与における先行研究の問題点をわかりやすくまとめ、可能なスパンを全列挙した上で、各スパンに付与したスコアに基づいて意味役割を付与する手法を提案している。これにより、従来のラベル付きスパン予測手法における構文解析などの解析前処理の誤り伝播という問題を解消し、かつ入力系列全体の特徴量を用いる事ができる。また、アイディアの根幹は、セグメントの同定と分類を含むタスクに応用可能と考えられる。CoNLL2005、2012を用いた英語意味役割タスクの評価実験において適切なベースラインと比較し有効性を示しており、定量・定性両面から詳細な分析を行っている。論文も完成度が高く、研究報告としての価値が極めて高いため、優秀研究賞に推薦する。
Block HolE: 関係行列の同時対角化に基づく知識グラフ埋め込みモデルの問題点とその解決
林 克彦(大阪大学), 真鍋 陽俊, 石原 敬大, 新保 仁(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
見出し語生成という既存のタスクをモデルに任せて解くのではなく、現在のデータセットの持つ特性からアプローチし、課題を明らかにしている点が非常に評価できる。見出し生成タスクに閉じない範囲においても、タスクの課題抽出を行うためにどのように分析を進めるべきかが示唆されている論文である。また、実験においても最新のセットアップを使用しており、実用性の観点からも十分に評価できる。
分野特有の教師なし固有表現認識
友利 涼, 森 信介(京都大学)
(優秀賞選考委員コメント)
固有表現抽出は情報抽出や検索など幅広いアプリケーションの性能を支える根幹技術のひとつであり、日々新たなドメインが生まれる現実とコストを鑑みると、全てのドメインにおいて十分な量のアノテーションを作成することは現実的ではない。そのため、教師なしの固有表現認識のニーズは非常に高く、少数のシード情報で利用可能な本論文の提案手法は、固有表現抽出の応用の幅を広げる重要な技術である。本手法は、識別モデルと生成モデルを統合した半教師あり学習モデルを教師なし学習に適用し、分野特有の教師なしNERを行えるよう工夫している。有用かつ本分野に大きく貢献する論文であるため、優秀研究賞に推薦する。
教師なし系列マッチング
和田 崇史(奈良先端科学技術大学院大学), 岩田 具治(NTT)
(優秀賞選考委員コメント)
パラレルコーパスなどの教師データは生成コストがかかるという課題に対し、本研究では、Bidirectional LSTMを用いたAutoEncoderによる教師なし系列マッチング手法を提案している。提案手法はSiamese Neural Networkの形になるように複数ドメイン共通のLSTMを持つ系列AutoEncoderを学習することで得られた分散表現を用いるシンプルな手法で、汎用性が期待できる。また、複数の言語ペアで対訳文のマッチング評価を行うとともに、教師あり学習が提案手法に対して精度を上回るポイントも示しており、本手法の有効性の検証を多様な面から行っている点も評価できる。系列マッチングとして定式化される問題は豊富であり、有用性と汎用性の観点から、優秀研究賞に推薦する。
意味役割付与における未知分野へのニューラル分野適応技術
大内 啓樹, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
意味役割付与の分野適応を題材に、複数のソースドメインの訓練データがあるものの、ターゲットドメインは未知、という実践的な設定で、ターゲットドメインがソースに含まれている/いないという2つの問題設定に切り分け、2つのモデ ルを提案し、評価実験、改善に向けた分析を行っている。特に、問題設定を切り分けて評価を行なうことで、各提案手法の強みや弱点を明確にしている。また、問題設定、提案モデル、実験方法は意味役割付与のみならず広く通用する。さらに、記述が明確でわかりやすく、分野適応の関連研究も多数引用して言及しているため、読み物としても完成度が高い。
可変次数無限隠れマルコフモデル
内海 慶(デンソー), 持橋 大地(統計数理研究所)
(優秀賞選考委員コメント)
隠れマルコフモデルを用いる際に,高次のマルコフ性を扱いたいという要求があるが,計算量と隠れ状態の組み合わせ爆発に起因するデータスパースネスの問題から,現状ではほぼ一次のモデルが使われている。この2つの問題に対して,本論文では,データに合わせた状態数の推定,位置毎の次数推定による次数の可変化を可能にするモデルを提案し,複数の実験によって,定性・定量の両面で妥当な振る舞いを確認している.これは,高次の隠れマルコフモデルの実用範囲を広げうる重要な成果といえる.さらに,論文の記述も丁寧で完成度が高いことからも,優秀研究賞に推薦する.
アラビア語の高粒度な品詞タグ付けのための辞書情報を活用した形態統語的カテゴリの同時予測
井上 剛, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
アラビア語は,タグセットが膨大にあるため,品詞のタグ付けが困難であった.この問題に対し,本研究では,マルチタスク学習の枠組みを用いることで,各形態統語的カテゴリを同時に予測する手法を提案している.本手法は形態的に豊かな言語の品詞タグ付けに対する新しい解法の提案であり,新規性が高い.Penn Arabic Treebankを用いて評価実験を行い,最高性能の品詞タガーと比較し,正解率で上回ることが示されている.また,様々な角度から提案手法の有効性を検証している点も評価できる.文章もわかりやすく論文としての完成度が高いことから優秀研究賞に推薦する.X
遷移型句構造解析に基づく論文PDF中の数式XML解析
澤井 裕一郎, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本論文は、科学技術論文のPDFファイルに含まれる数式をMathML形式に変換するタスクに対し、FFNNを利用した遷移型句構造解析を適用して解決する手法を提案したものである。先行研究では数式の解析に画像認識の手法を利用しているが、提案手法ではPDF中の文字・図形情報を利用することにより大幅に精度を向上させることに成功している。論文中の数式を構造化する技術は有用性が高く、今後、関連研究との組み合わせによって様々な応用が可能になる点において将来性もある研究である。タスクの設定や実験デザインも十分考慮されており、論文としての完成度も高い点からも、優秀研究賞に値する。
反転学習とシステム開発演習を活用するテキストアノテーション
松吉 俊(電気通信大学)
(優秀賞選考委員コメント)
反転学習・問題解決型の授業の中でアノテーション作業を行う新しい枠組みを提案し,受講者自身がテキストアノテーションを通じて対話システムを改良する授業実践例について報告している.提案された枠組みは,新たなアノテーション手法のひとつとして期待されるほかに,自然言語処理という研究分野の魅力を伝え,言語処理技術者を育成する効果が大きいと思われる.アノテーションの品質を保証するノウハウの蓄積や,教育倫理の観点からデータの公開・再利用にまつわる議論を深めることなど,今後の課題は残るが,実践を重ねることで有用なアノテーション手法・教育手法として発展する可能性が感じられることから優秀研究賞に推薦する.
多層リカレントニューラルネットワークを用いた日本語述語項構造解析
大内 啓樹, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
日本語述語構造解析では、形態素解析にはじまる言語処理パイプライン処理によって得られた解析結果を用いるため、各ステップにおける誤りの影響をうけるおそれがある。本研究では、単語の表層情報のみを用いてニューラルネットワークベースの手法を提案している。提案手法は日本語述語構造解析の最高精度を達成しており、本分野をリードする重要な研究になると考えられるため、優秀研究賞に推薦する。また他研究者が追実験を行いやすいようソースコードを公開していることも高く評価できる。
平易なコーパスを用いないテキスト平易化のための単言語パラレルコーパスの構築
梶原 智之, 小町 守(首都大学東京)
(優秀賞選考委員コメント)
テキスト平易化の研究は盛んに行われているが、いずれもパラレルコーパスを必要とするアプローチであり、パラレルコーパスが存在しない言語には適用できないという課題があるが、あらゆる言語においてパラレルコーパスを作成することは現実的に困難である。本研究は対象コーパスからテキスト平易化のためのパラレルコーパスを構築する方法を提案しており、任意の言語、ドメインにおいてテキスト平易化を実現する枠組みを提供し、テキスト平易化研究の可能性を広げる価値のある研究であるため、優秀研究賞に推薦する。
(該当なし)
複数時点の単語出現頻度を扱う時系列データモデリング
磯 颯, 若宮 翔子, 荒牧 英治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
Twitter記事からのインフルエンザ流行予測を行っている。ソーシャルメディアを言語解析し現実世界の動向を把握するこのようなタスクは実社会における有用性が高い。手法のポイントはTweetに出現する単語ごとに目的事象との適切な時間ギャップを考慮したモデリングであり、これによって現状予測精度の向上が見られた点、また、流行の将来予測を可能にする点で興味深い。検証例が少数であり、今後のより充実した実験的評価が望まれるが、将来の手法の改良・発展が期待できる。
無限木構造隠れMarkovモデルによる階層的品詞の教師なし学習
持橋 大地(統計数理研究所), 能地 宏(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
従来のHMMや無限HMMが隠れ状態をフラットな構造として扱っていたのに対し、本稿では隠れ状態を階層構造として推定可能とするiTHMMを提案し、階層的な品詞の教師なし学習を可能とした。提案法は、自然言語処理はもとより情報科学一般の様々なタスクに適用できるHMMの本質的な拡張であり、多くの研究者にとって有用性が高い。また、実験・分析において多様な観点から有効性が検証されている点、実応用を見据えた半教師あり学習への拡張についても検証されている点、分かりやすさに十分配慮して書かれている点を合わせて鑑みても、論文としての完成度が高く、優秀研究賞に値する。
分散表現に基づく選択選好モデルの文脈化
大野 雅之, 井之上 直也, 松林 優一郎, 岡崎 直観, 乾 健太郎(東北大学)
(優秀賞選考委員コメント)
ある特定の文脈における名詞の意味を、それに先行する文脈における当該名詞の言及のされ方によって捉えるというアイデアは、意味表現の興味深い拡張といえる。実際にそのアイデアを照応解析の性能向上に結びつけた点が素晴らしい。また、本文の記述が論理的で詳細でありながらわかりやすい。 既存研究との詳細な比較など今後の研究の発展が期待される。
格パターンの多様性に頑健な日本語格フレーム構築
林部 祐太,河原 大輔,黒橋 禎夫(京都大学)
(優秀賞選考委員コメント)
本研究では、日本語の格フレームの多様性に対して頑健な格フレームの構築手法を提案している。提案手法は、日本語の言語現象の分析を十分に行った上で導き出したものであり、従来手法に比べて大幅な精度の改善が得られている。評価も40億文の大規模な用例を用いて行っており、信頼性も高い。格フレームは、言語解析の基本処理である述語項構造解析、意味役割付与の精度向上に必要な重要な言語資源である。今後、本手法を用いて構築した大規模な格フレームが利用可能になれば、実用面での貢献も高く、優秀研究賞に値する。
畳み込みニューラルネットワークを用いた複単語表現の解析
進藤 裕之,松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究では、畳み込みニューラルネットを用いて複単語表現の同定と品詞タグ付けを同時に行う複単語表現解析手法を提案している。提案手法は複単語表現が連続する単語群から成るか、非連続である単語群から成るかに問わず適用可能であり、また素性テンプレートを不要としつつ、従来手法に比べて高精度な解析精度を達成しており、その有用性は高い。著者らの主張するとおり「文字の組み合わせが単語を構成し、単語の組み合わせが複単語表現を構成する」という言語が持つ階層性を自然な形でモデル化しており、さらなる拡張の可能性も高く、優秀研究賞に値する。
逐次最適解更新による頑健な単語分散表現の学習方式
鈴木 潤,永田 昌明(NTT)
(優秀賞選考委員コメント)
近年注目を浴びている分散表現の学習に適用できる学習方式を提案しています。非凸なLBLモデルの学習が双凸最適化問題になっていることを示し、解析的に求まる最適解を繰り返し求めることで、より良い解を見つけています。学習方式にいくつか良い性質があることを示し、実験により、従来法よりも良い解が求まることを示しています。
対数的共起ベクトルの加法構成性
田 然,岡崎 直観,乾 健太郎(東北大学)
(優秀賞選考委員コメント)
分布表現におけるベクトルの足し算が共起の良い近似になっていることを示し、特異値分解による単語埋め込みはSkip-Gramなどの最先端の分散表現に匹敵することを実験により示しています。周辺文脈にジップ則が成り立つことを仮定すると上記の加法構成性が成り立つことが証明でき、実験によって、周辺文脈にジップ則が成り立つことを示しています。ベクトル表現による意味論に関する理論的な研究で、非常に面白いと思います。 推薦論文について、前者は研究・論文としての完成度の高さが評価されました。一方後者は、発想の意外性、理論的な面白さが評価されており、対照的な良さを持った論文と評価されました。そのため今回は2件推薦したいという結論に至りました。
隠れセミマルコフモデルに基づく品詞と単語の同時ベイズ学習
内海 慶,塚原 裕史(デンソーアイティーラボラトリ),持橋 大地(統計数理研究所)
(優秀賞選考委員コメント)
本論文では単語の境界と品詞に相当する隠れクラスを同時に学習する教師なし形態素解析手法が提案されており、提案モデルを用いることで分かち書きおよび品詞(隠れクラス)付与を行うことが可能である。品詞の付与は、従来の教師なし形態素解析手法では扱われておらず、手法の新規性・独創性は高い。高速化等の課題はあるが、今後の展開に期待ができる。
意味と構造の構成演算と類似度学習における非線形性
椿 真史,Duh Kevin,新保 仁,松本 裕治(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究は文間の意味的類似度を扱うものであり、単語ベクトル空間モデルにおける意味の構成性とカーネル法による非線形類似度学習の2つのアプローチを融合する新規性の高い手法により、シンプルで実装が容易でありながら、既存研究の最高性能に迫る高い性能を実現した点が高く評価できる。論文も新規性や優位性等に関してポイントが明確に述べられており、論文としての完成度も高い。