優秀研究賞
優秀研究賞について
自然言語処理研究会では、自然言語処理に関する研究開発を幅広くタイムリーに奨励することを目的として、第220回研究会から新しい表彰制度「自然言語処理研究会優秀研究賞」を設置しました。これは、各回の研究会において投稿される予稿の中から新規性、有用性、斬新性、将来性等の点で特に優れたものを表彰するものです。表彰件数は全体の10%程度とし、研究会の幹事と運営委員からなる選考委員会が選考します(選考委員はCOIを考慮して選出し、幹事にCOIがある場合にはCOIのない幹事または運営委員にて選考委員会を開催します)。選考は事前に行い、研究会開催時の最後に発表・表彰します。また、山下記念研究賞への研究会推薦の参考とします。
※選考の結果授与対象なしとなることがあります
2024年度
2024年12月(第262回研究発表会)
単語の通時的な類似度行列による意味変化パターンの分析
木山朔(東京都立大学)・相田太一(東京都立大学)・小町守(一橋大学)・小木曽智信(国立国語研究所)・高村大也(産業技術総合研究所)・持橋大地(統計数理研究所)
(優秀賞選考委員コメント)
本研究は、単語の通時的な意味変化をモデル化する新たなフレームワークを提案しています。期間ごとに分割された通時的コーパスを対象に、単語共起尤度行列の特異値分解を用いた単語ベクトルの比較を行い、通時的な意味の変化を捉える手法は有用であり、事例の選定や解釈も興味深い成果を提供しています。一方、語の意味の変化の検出については擬似データに留まった評価や、他手法との比較が不足している点は課題として残ります。それでも実験・分析は充実しており、提案手法の利点と有効性を十分に示している点で、優秀賞に値する成果と評価します。
機械は仕様を考慮して翻訳できるか:統合報告書の英訳の場合
萱野陽子(国立情報学研究所)・菅原朔(国立情報学研究所)
(優秀賞選考委員コメント)
本研究は、NLP分野で十分に顧みられてこなかった翻訳仕様への対応という重要な課題に挑戦し、企業統合報告書の翻訳を題材に、実務に即した多面的な評価を行っている。実験結果では通常は正解とされる公式翻訳(人手翻訳)が仕様を考慮すると最も低評価になった点など、問題設定を含めて新たな視点を提供している。一方で、タスクやデータの限定性により、結論の一般化には課題も残りますが、よく検討された方法論や今後の発展可能性を含めて意義深い研究であり、優秀賞に値する成果と評価します。
2024年9月(第261回研究発表会)
LLMに日本語テキストを学習させる意義
齋藤 幸史郎(東京工業大学),水木 栄(東京工業大学),大井 聖也(東京工業大学),中村 泰士(東京工業大学),塩谷 泰平(東京工業大学),前田 航希(東京工業大学),Ma Youmi(東京工業大学),服部 翔(東京工業大学),藤井 一喜(東京工業大学),岡本 拓己(東京工業大学),石田 茂樹(東京工業大学),高村 大也(産業技術総合研究所),横田 理央(東京工業大学),岡崎 直観(東京工業大学)
(優秀賞選考委員コメント)
本論文では,日英対照的に設計した19個の評価タスクにおいて35種類のLLMの性能を分析することにより,LLM間の性能の違い,タスクごとの性能の違いを生み出す要因を詳細に分析している.これらの分析結果・知見は今後の日本語LLMの訓練と評価データの設計に重要な示唆を与えるものであり,有用性を高く評価し,優秀研究賞に推薦する.
2024年6月(第260回研究発表会)
Mamba ブロックが帰納ヘッドタスクを実行するメカニズム
山本 悠士(東京理科大学),松崎 拓也(東京理科大学)
(優秀賞選考委員コメント)
状態空間モデルが近年再度注目されている中,有力なモデルMambaを取り上げ,記憶と想起のメカニズムについて数学的な観点から分析・議論を行っている.部分的かつ制限された状況下ではあるが,丁寧な議論が展開されており,状態空間モデルに基づく深層学習手法の発展に寄与する内容であるため,優秀研究賞に推薦する.
文字言語モデルからの単語言語モデルの教師なし合成
村脇 有吾(京都大学)
(優秀賞選考委員コメント)
幼児の言語獲得過程に着想を得て,事前訓練済文字言語モデルと単語境界モデルから,単語分割の教師データなしに単語言語モデルを構築する新しい手法を提案している.評価実験においては先行研究に匹敵する性能を達成し,現在主流であるサブワード分割とは異なる文字単位の処理への足がかりを示しているため,優秀研究賞に推薦する.
RECORD TWIN: 病歴を保ちつつ表現が異なる症例の生成
清水 聖司(奈良先端科学技術大学院大学),矢田 竣太郎(奈良先端科学技術大学院大学),若宮 翔子(奈良先端科学技術大学院大学),荒牧 英治
(優秀賞選考委員コメント)
匿名化による安全なコーパスの構築という医療言語処理分野の課題に対して,エンティティのk-匿名化とLLMによるテキスト生成というアプローチを提案している.解決しようとする課題の社会的意義の高さに加えて,詳細なエラー分析を行うことでさらなる精度向上の道筋を示しているため,優秀研究賞に推薦する.
2023年度
2024年3月(第259回研究会)
原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成
福田 りょう(奈良先端科学技術大学院大学),土肥 康輔(奈良先端科学技術大学院大学),須藤 克仁(奈良先端科学技術大学院大学),中村 哲(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究は日英同時翻訳において順送り方略のみを対象としたシステムを構築するための第一歩として、順送り方略を対象としたデータセットを作成しています。課題設定は新規であり、同時翻訳ではデータセットが希少なことを考えると本研究が提供する価値は高いものであるといえます。またデータセットは人手評価で品質調査が行われており、質の点で十分であると考えられます。今後、本研究で作成されたデータセットによる順送り方略だけを使用するシステムの実現及び評価が期待されます。
2023年12月(第258回研究会)
文法誤り訂正におけるメタ評価の再考
小林 正宗(東京都立大学),三田 雅人(サイバーエージェント株式会社/東京都立大学),小町 守(一橋大学)
(優秀賞選考委員コメント)
本研究は、文法誤り訂正における自動評価尺度の性能を調べるメタ評価のためのデータセットを構築し、従来のメタ評価手法の問題点やニューラルベースの文法誤り訂正システムを評価する際の注意点を明らかにしている。本研究で作成されたデータセットおよび考察は、これまでの研究では解明されていなかった重要な気づきを与えており有用性が高い。また調査結果をもとに今後の評価のための実践的な指針を与えており、文法誤り訂正の発展に大きく寄与する研究だと考えられることから優秀研究賞に推薦する。
大規模言語モデルの統一評価に向けた指示テンプレートの提案及びその評価結果の考察
坂井 優介(奈良先端科学技術大学院大学),ノヘイル アダム(奈良先端科学技術大学院大学),上垣外 英剛(奈良先端科学技術大学院大学),渡辺 太郎(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究では、大規模言語モデルの自然言語理解性能を評価するための新たなデータセットを構築し、指示テンプレートごとの性能の分散を考慮した評価指標を提案している。指示テンプレートへの頑健性という新たな観点で評価できる枠組みは、大規模言語モデルの公平な評価を行う上で重要な観点であり有用性が高いと考えられる。また、構築したデータセットを用いた実験では示唆に富む考察が行われていることから、優秀研究賞に推薦する。
2023年9月(第257回研究会)
未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
坂井 優介(奈良先端科学技術大学院大学),上垣外 英剛(奈良先端科学技術大学院大学),林 克彦(北海道大学),渡辺 太郎(奈良先端科学技術大学院大学)
(優秀賞選考委員コメント)
本研究では、事前学習済み言語モデル (PLM) の記憶能力と推論能力を切り分けて評価する方法とそのデータ構築手法を提案している。知識グラフ補完タスクを対象に多角的な実験および分析を行っており、PLMの推論能力について有用な知見を提供するとともに、その実験手法は他のタスクでの応用の期待もできる。また、未知の知識に対するPLMの推論能力はNLPコミュニティにとって関心の高い内容であることから、優秀研究賞に推薦する。
2023年5月(第256回研究会)
系列変換モデルにおける語彙制約を用いた複数出力候補の統合
宮野 稜大(大阪大学),梶原 智之(愛媛大学),荒瀬 由紀(大阪大学)
(優秀賞選考委員コメント)
本研究では,まず,系列変換モデルの複数出力候補に対して単語単位の正誤判定を行い,その後,それらの判定結果をもとに改めて語彙制約付き生成を行う品質改善手法を提案し,言い換え生成および自動要約タスクにおいて,その有効性を実験結果から示している.提案手法は,系列変換モデル・正誤判定モデルのどちらの構築においても特別な訓練データを必要とせず,様々な生成タスクに対して汎用的に適用可能であることが期待できる.その汎用性と有用性を高く評価し,優秀研究賞に推薦する.
2022年度
2023年3月(第255回研究会)
招待講演企画のため該当なし
2022年12月(第254回研究会)
言語モデルの第二言語獲得効率
大羽 未悠 (NAIST),栗林 樹生 (東北大/Langsmith),大内 啓樹 (NAIST/理研),渡辺 太郎 (NAIST)
本研究では、言語モデルの言語転移について、第二言語における文法の獲得への影響という観点で様々な設定を用いて調査している。言語モデルの第二言語獲得というテーマ設定の独創性が非常に高く、シンプルな道具立てによる検証の中で、ヒトの第二言語獲得の難易度と言語モデルの獲得難易度で差があるなど多くの発見があり、実験結果に対する考察も示唆に富んでいる。また、論文自体も明瞭に記述されており読み物としての完成度が高いことから、優秀研究賞に推薦する。
2022年9月(第253回研究会)
KWJA:汎用言語モデルに基づく日本語解析器
植田 暢大(京大),大村 和正(京大),児玉 貴志(京大),清丸 寛一(京大),村脇 有吾(京大),河原 大輔(早大),黒橋 禎夫(京大)
本論文は、事前学習済みモデルをもとに日本語における様々な基礎解析タスクに対するモデリングを行い、成果をツール群として一般に公開しています。ツールは今後広範な日本語タスクにおいて有用となること必至である上、個別の解析器の評価とそれに伴う今後の課題が明確かつ詳細に議論されているため、日本語自然言語処理において疑いなく重要な貢献であると言え、優秀研究賞として推薦いたしました。今後論文中でなされた議論をもとにさらにツールが発展していくことを期待しています。
説明文生成を用いた動作行動予測
中村 泰貴(東大),河野 誠也(理研),湯口 彰重(理研),川西 康友(理研),吉野 幸一郎(理研)
本研究では,人と共生するAIの第一歩として動作行動予測を言語化する枠組みを提案し,独自のデータセットを構築している.また,構築したデータを用いて自動評価と人手評価を行い提案手法の効果を確認した.問題設定は限定的ではあるが,本論文で議論されている内容は多くのアプリケーションにとって有用な知見と考えられるため優秀賞として推薦する.
2022年6月(第252回研究会)
フレーズアライメントと文構造に基づくデータ拡張を用いた頑健な自然言語生成
山本 賢太(京大), 河野 誠也(理研), 河原 達也(京大), 吉野 幸一郎(理研)
言語生成における重要課題である過生成を緩和することを目的とし、フレーズアラインメントと文構造を利用した独創的なデータ拡張手法を提案し、人手評価により有用性を確認している。既存手法との組み合わせも容易で、広くニューラルネットワークを用いた言語生成への活用が期待できることから、優秀研究賞に推薦する。
2021年度
2021年12月(第251回研究会)
テキストのみを用いたドメイン適応のためのIntermediate-CTCコンフォーマーモデルに関する検討
佐藤 裕明(NHK技研), 小森 智康 (NHK技研), 三島 剛(NHKエンジニアリングシステム), 河合 吉彦(NHK技研), 望月 貴裕(NHK技研), 佐藤 庄衛(NHK技研), 小川 哲司(早大)
本研究では、音声とテキストのペアデータからのモデル化が必要となるEnd-to-End音声認識の枠組みにおいて、テキストのみのリソースを活用する新たな方法を提案している。提案手法は、Intermediate-CTCの特徴を明示的に利用してテキストを連続ベクトル系列に変換する仕組みをあらかじめ準備し、テキストのみのデータを連続ベクトル系列に変換してEnd-to-End音声認識の学習に利用するというものであり、新規性と実用的を兼ね備えている。また、提案手法は、従来の代表的な方法であるshallow fusionと併用可能であり、有効性が高い点も評価できる。提案手法の記載も明瞭であり、論文としての完成度も高い。以上の点から、優秀研究賞に値する論文と評価できる。
2021年9月(第250回研究会)
レーシングゲーム実況生成
石垣 達也(産総研), トピチ ゴラン(産総研), 濵園 侑美(産総研/お茶大), 能地 宏(産総研/Leapmind) 小林 一郎(産総研/お茶大), 宮尾 祐介(産総研/東大), 高村 大也(産総研)
複数モダリティを考慮することが必要なテキスト生成の新たなタスクを提案し、実験・分析を通じて新たな知見を得た優れた研究であり、また、データセット公開によって今後の更なる発展への寄与も期待できることから、優秀研究賞に推薦する。
2021年7月(第249回研究会)
事例ベース推論を行うニューラルモデルの説明性とハブ現象の関係
佐藤 俊(東北大), 大内 啓樹(NAIST), 塙 一晃(理研/東北大), 佐々木 翔大(理研/東北大), 乾 健太郎(東北大/理研)
本研究ではIdentity Subclass Testと呼ばれるラベル付けの一貫性を問う指標を用いて、事例ベース推論におけるハブ現象での説明性を分析したものです。論文中ではハブの発生頻度と予測性能を損失関数や類似尺度の違いから分析し、詳細な分析と考察が行われています。論文としての完成度が高く、有用な知見を多く含んでいることから、優秀研究賞として推薦します。今後、評価のための分類問題の拡張や、より様々な言語現象を対象とした分析として発展されることを期待します。
確率的潜在意味スケーリング
持橋 大地 (統数研)
本研究では潜在意味スケーリングを統計モデルとして実現する手法を提案しており、教師なし、あるいは半教師ありで柔軟に利用可能なモデルを実現しています。この実現のため、単に既存手法を確率化するだけでなく、ガウス・エルミート求積を使ってパラメータ推定の一致性を担保するなど、技術的独創性が高い点を評価して優秀研究賞として推薦しました。複数のデータを対象に評価を行っており有用性評価が十分に行われていますが、今後様々な一般テキストでの有効性が示されることを期待します。
2021年5月(第248回研究会)
議論の構造化と妥当性評価のためのBayesian Argumentation-Scheme Networksの提案とアノテーションデータ作成
近藤 崇宏(東大),鷲尾 光樹(東大),林 克彦(東大),宮尾 祐介(東大)
述語論理とベイジアンネットワークを用いてargumentation schemesの定式化をする方法論を示し,それを利用したデータセットの構築方法についても述べられている.これまでの研究においてはアノテーションによるデータ作成の難しさが課題であったが,ベイジアンネットワークを元にそれに対応するテキストを生成するという手順で生成することにより,比較的規模の大きなデータを構築できることを示している.そのアイデアは新規性が高く,これまでのscheme定義をカバーしつつ,議論における論理を統一的に形式化できることから有用性も高く評価できる.提案手法を検証するためのデータセットはカバーする表現が限定的であるため今後のより充実した実験的評価が望まれるが,議論マイニング分野の研究の将来的な発展と促進が期待できると考えられる.
2020年度
2021年3月(第247回研究会)
招待講演企画のため該当なし
2020年12月(第246回研究会)
ニューラル機械翻訳のためのバイリンガルなサブワード分割
出口 祥之(愛媛大)・内山 将夫(NICT)・田村 晃裕(同志社大)・二宮 崇(愛媛大)・隅田 英一郎(NICT)
対訳関係を考慮したサブワード分割を行うことにより、翻訳性能を向上させる手法を提案している。 対訳コーパスを利用して原言語と目的言語のトークン数の差を最小化するというシンプルなアイデアにより、 複数の言語ペアにおいて翻訳性能の向上を達成しており、その有用性を高く評価する。 同様の着想を翻訳以外のタスクに適用できる可能性もあり、研究の将来性も併せて評価できる。 また、提案手法により得られるサブワードの効果について詳細な検証がなされており、 その実験等の記述も明瞭であることから、論文としての完成度も高い。 以上の理由により、優秀研究賞に推薦する。
潜在的なトピック構造を捉えた生成型教師なし意見要約
磯沼 大・森 純一郎(東大)・ボレガラ ダヌシカ (リヴァプール大)・坂田 一郎(東大)
本論文では、生成型教師なし要約のために、トピックに関する木構造を導入し、その木構造の深さに応じて意味的な粒度が変化して要約文が構成されるという着眼点を導入している。このアイデアを実現するために、再帰的な混合ガウス分布に基づく木構造ニューラルトピックモデルと自己回帰型文生成モデルを組み合わせる手法を提案しており、そのアイデアは非常に明瞭かつ、提案手法自体も先駆的な取り組みと言え新規性も高い。近年の代表的な手法と比較を行い、その有用性を評価できており、定性的、および定量的な分析の両者で提案手法の特徴を深堀りできている点も高く評価できる。論文自体もよく構造化して記載されており読み物としての完成度も高く、優秀研究賞に値する論文と評価できる。
2020年9月(第245回研究会)
該当なし
2020年6月(第244回研究会)
該当なし
2019年度
2019年12月(第243回研究会)
階層的な注意機構に基づき統語的な先読みを行う文抽出手法
上垣外 英剛(東工大)・奥村 学(東工大)
依存構造上の親方向への再帰的な注視機構を拡張し,子方向への注視・先読みを行い選択的制約として利用する文圧縮手法を提案している。統語情報を積極的にかつ有効に活用できる手法であり自然言語処理研究としてよく練られた研究であること,提案手法により従来研究を上回る精度を達成し,特に長文に対しての改善が顕著であること,また例示や評価・分析を含めた論文としての完成度が高いこと,から優秀研究賞に推薦する。
2019年10月(第242回研究会)
該当なし
2019年8月(第241回研究会)
事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳
今村 賢治(NICT), 隅田 英一郎(NICT)
様々なタスクで有用性が示されているBERTを機械翻訳のエンコーダに利用する際に、エンコーダにそのまま使う方法ではまともな訳出がでないという問題点を示し、その問題に対応するためにBERTエンコーダを固定して学習した後に全体を微調整するという2段階の訓練方法を提案し、その有効性を実験的に確かめている。系列変換モデルに広く利用可能な有用性の高い手法を提案していること、様々な角度から提案手法の有効性を検証していること、論文の記述も丁寧で完成度が高いことから、優秀研究賞に値する論文であると判断した。
鏡映変換に基づく埋め込み空間上の単語属性変換
石橋 陽一(NAIST), 須藤 克仁(NAIST), 吉野 幸一郎(NAIST), 中村 哲(NAIST)
広く知られたアナロジーに基づく語の属性変換に対して、語の属性に依存してしまう問題に着目し、語の属性の知識がなくともその属性を反転させる鏡映変換ととらえ、鏡映変換を実現する関数を学習することによって解決する手法を提案しており、独創性が特に高く評価できる。独創的な着想であることもあり、有用性の実証については今後に期待したい点が残るものの、エラー分析が詳細に行われており原稿も分かりやすく記述内容が高く評価できる。以上の理由により、優秀研究賞に推薦する。
クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張
鈴木 正敏(東北大), 松田 耕史(理研/東北大), 大内 啓樹(理研/東北大), 鈴木 潤(東北大/理研), 乾 健太郎(東北大/理研)
Quizbowlタスクを(超)多クラス分類問題として扱い、BERTを用いて効率的に解く方法を提案している。また、タスクの性質をよく捉え、Wikipediaを利用したデータ拡張により大幅な精度向上を達成している。手法の応用範囲が広く、また事前学習済みBERTを用いた場合であっても擬似データが有効であることを示していることは有用性が高い。評価や結果の分析も丁寧に行われており、読み物としての完成度も高いことから、優秀研究賞に推薦する。
2019年6月(第240回研究会)
含意関係に基づく見出し生成タスクの見直し
松丸 和樹(東工大), 高瀬 翔(東工大), 岡崎 直観(東工大)
見出し語生成という既存のタスクをモデルに任せて解くのではなく、現在のデータセットの持つ特性からアプローチし、課題を明らかにしている点が非常に評価できる。見出し生成タスクに閉じない範囲においても、タスクの課題抽出を行うためにどのように分析を進めるべきかが示唆されている論文である。また、実験においても最新のセットアップを使用しており、実用性の観点からも十分に評価できる。
コピー機構を用いたクエリ指向ニューラル生成型要約
石垣 達也(東工大), 黃 瀚萱(国立台湾大), 陳 信希(国立台湾大), 高村 大也(産総研/東工大), 奥村 学(東工大)
以前から要約タスクで用いられていた、クエリや文書中の単語を要約文に含めるという手法に着目し、深層学習におけるコピー機構の文脈で再解釈している点を評価した。温故知新とも呼べるこのようなタイプの発想が他分野への波及が期待できる点、また論文の記述内容の質も総じて高い点から、優秀賞に値する論文であると判断した。
(2018年度以前の授賞記録は移行中です。ご容赦ください。)