NLPにおける再現性

趣旨


実験の再現性は健全な議論のために不可欠の条件である。しかし、近年、NLPで扱われるデータ量やそれを処理するための計算コストが著しく増加し、実験の再現性を検証することが困難になってきている。また、現実問題として、著名な国際会議では(改善の動きは見られるものの)依然として新規性が採録の基準として重要視されるため、限られた研究リソースの配分先として、報告された内容の検証よりも、新しい手法や分野の研究が選ばれることも多い。こうした状況を踏まえ、本ワークショップでは、NLPにおける再現性について幅広く知見を集め議論する場を提供する。

開催情報

  • 開催日:3/18

  • 場所:Zoomによるオンライン開催

参加方法

プログラム


第一部 学会から見た再現性

  • 10:30-10:50「ACL Efficient NLP ワーキンググループの取り組み:必要十分な実験を」荒瀬由紀(大阪大学)

  • 10:50-11:00「国際会議投稿時のチェックリストについての議論」高瀬翔(東京工業大学)[Slide]

  • 11:00-11:30 第一部に関する質疑・討論


第二部 再現性を保証するには?

  • 13:00-13:30「再現性と検定 ―なぜ検定を行うか―」笹野遼平(名古屋大学)[Slide]

  • 13:30-14:00「認知・脳科学から見たNLPの再現性」大関洋平(東京大学)[Slide]

  • 14:00-14:30 第二部に関する質疑・討論


第三部 現場から見た再現性

  • 14:40-15:10「WMT日英ニュース翻訳タスクができるまで」永田昌明(NTT コミュニケーション科学基礎研究所)[Slide]

  • 15:10-15:30「DNN時代の信頼される実験のやり方とは?」鈴木潤(東北大学)[Slide]

  • 15:30-15:50「ツールベンダーが提案する理想論的結果再現方法と、現場における課題や知見のディスカッション」田口美紗(MathWorks Japan)

  • 15:50-16:00「NLPにおける再現性に関するアンケート調査」伊藤拓海(東北大学/Langsmith)[Slide]

  • 16:00-16:30 第三部に関する質疑・討論


まとめ

  • 16:30-16:40 全体を通しての討論



発表概要

10:30-10:50 荒瀬由紀 (大阪大学)

「ACL Efficient NLP ワーキンググループの取り組み:必要十分な実験を」

ニューラルネットワークモデル、特にBERTを始めとする事前学習済みモデルの台頭により自然言語処理技術の性能は大きく向上しました。しかし一方で、ニューラルモデルの訓練にかかる人的・時間的・金銭的コストもまた大きくなっており、自然言語処理分野への参入障壁となっています。ACL2021に先立って実施したアンケート調査では、57%の回答者が計算コスト(≒金銭的コスト)の問題で実験を断念したことがある、また30%の回答者が査読者からコストの高すぎる実験を求められたことがあると回答しています。

コストをかけた実験を網羅的に実施することが学術的価値に直結するとは限りません。逆に、計算コストの高さを本来必要な実験を実施しない言い訳にすべきではありません。ACL Efficient NLPワーキンググループではこれら対立する二つの側面を両立し、効率的な自然言語処理研究の推進を促進するため以下の3つの提言をしています。

  • Research claimとそれを実証する実験設定の対応関係を明確にするよう、著者・査読者双方に向けたガイドラインを作成する

  • (様々なサイズの)訓練済モデル・実装コード公開の推奨

  • 計算効率を主題とする研究領域の設定

講演ではこれら3つの提言を中心として、ACL Efficient NLPワーキンググループの取り組みを紹介したいと思っています。


13:00-13:30 笹野遼平 (名古屋大学)

「再現性と検定 ―なぜ検定を行うか―」

NLPにおける再現性を高める手段の1つとして統計的検定があります。しかし、NLPの研究では、どのように検定したかの詳細が記載されていないケースや、適切な統計的検定が実施されていないケースが多く見られます。本講演では、なぜ統計的検定を行うのか、統計的検定で何を示せているのかについて再考した上で、NLPで用いられる代表的な検定手法を簡単に紹介し、さらに統計的検定を実施する上での注意点について取り上げたいと思います。


13:30-14:00 大関洋平 (東京大学)

「認知・脳科学から見たNLPの再現性」

再現性は、NLPのみならず、認知・脳科学のようなヒトを対象とした実験科学でも問題になっており、様々なノウハウが蓄積されてきました。そこで、本講演では、認知・脳科学の観点から、NLPにおける再現性について何を学べそうか考えたいと思います。具体的には、NLPと認知・脳科学を対照しながら、実験デザイン(既存手法の精度を引用するだけでは無く、デザインの一部として組み込んで実験すべきか)、統制実験(比較手法の次元・層・ヘッドの数などを調整して、総パラメータ数を統制すべきか)、サンプル(ヒトを対象とした実験で20-30の実験参加者を集めるのと同様、20-30のランダムシードで実験すべきか)、統計検定(既存手法と提案手法の差が統計的に優位か検定すべきか)、事前登録(ハイパーパラメータの試行錯誤など事後のボトムアップな仮説探索では無く、事前に計画していたトップダウンな仮説検証に限定すべきか)などのトピックを議論したいと考えています。


14:40-15:10 永田昌明 (NTT コミュニケーション科学基礎研究所)

「WMT日英ニュース翻訳タスクができるまで」

機械翻訳の分野では、日英対訳データで実験して論文を書くと、他の手法と比較できないのでWMT-2014独英データで実験しろと査読者から言われることがある。個人的には、日本語のゼロ代名詞の英語への翻訳など、日英翻訳に特有な問題に興味があるのに心外である。

これを使えば文句を言われない、デファクトスタンダードと世界が認める日英対訳データが欲しいというのが、我々が大規模日英対訳コーパスJParaCrawlを作った動機である。JParaCrawlを使ってWMT(Conference on Machine Translation)に日英ニュース翻訳の共通タスクを作った動機も同じである。WMTのニュース翻訳タスクの競争は苛烈で、評価は厳密であり、研究者から信頼されている。WMTに日英タスクを作れば、それが評価の規範になる。

結果として、最も信頼される機械翻訳の自動評価ツールSacrebleuが日本語をサポートした。日英タスクは中英タスクと並んで参加者が多い。共通タスクを2020年、2021年と2回やったので、やがてWMTのメトリックス(metrics)タスクの人達が日英翻訳における自動評価尺度と人手評価の相関を検証してくれるだろう。信頼される日英翻訳の評価の基盤はできつつあるように見える。

一方、大元となったJParaCrawlという対訳データ自体は、Webからの収集というアプローチの宿命として全く再現性がない。私たちは一体何をやっているのだろうか? これから何を目指すべきなのか? この機会に機械翻訳の評価について再現性という観点から考えてみたい。


15:10-15:30 鈴木潤 (東北大学)

「DNN時代の信頼される実験のやり方とは?」

DNNを使った方法論が主流となった現在,モデル学習の結果得られたモデルに対してなにかしらの保証を与えづらく,たまたま得られた結果なのでは?,或いは,主張する観点と違う理由で性能が上がったのでは?といった疑惑を払拭することが難しいです.また,モデルパラメタ数が尋常ではなく多くなる傾向にあり,また人手で選択するハイパーパラメタも多いため,やりようによっては,いくらでも結果をチートできてしまう可能性があります.更に,本来公平な条件での比較ではないのに,あたかも同じ設定で比較実験しているかのように論文に記載されている場合もあります(うっかりミスも含む).そこで,DNN時代のあるあるのやってはいけない実験設計や,今風の計算機環境の使い方など,日々の研究を進めていく上でどういったところに気を付けると良いかなどをまとめてみたいと思います.また,ここ数年ACL系(ACL, EMNLP, NAACL),機械学習系(NeurIPS, ICLR, ICML),AI系(AAAI, IJCAI)の国際会議の査読者/エリアチェアをほぼ毎年やっている経験から,査読者目線で信頼される実験とはどういったものか,再現性の観点を絡めて取り上げてみたいと思います.


15:30-15:50 田口美紗(MathWorks Japan)

「ツールベンダーが提案する理想論的結果再現方法と、現場における課題や知見のディスカッション」

弊社はソフトウェアベンダーとしてテキストマイニングツールを保有しており、企業や教育機関など幅広いお客様にご利用いただいている。中でも企業のR&D部門や、DX推進部門など、研究の後工程に製品化・システム化を控えているお客様は特に、予測モデルの再現性や精度の高さが求められ、弊社にもどのようにすべきかという相談を受ける。弊社では、どのメンバーも同じ環境で計算ができる仕組みを保有しておりまずはそれをご紹介し、その他、自身では、乱数を固定する・何度計算をしても安定的に精度が出るまでデータを集める・ハイパーパラメータを機械的に最適化させる、などの理想論的な、結果再現のための提案を行っているが、実際にご研究者の皆さまがどのように対応されているのかディスカッションを行いたい。また、画像などと異なり、1文字の違いが全体の意味を大きく変えてしまう言語データにおいて、結果の誤差をどのように評価・考察されているかについても知見を共有しあえると嬉しい。


アンケート調査

本ワークショップでの議論のため、再現性に関するアンケートをおこなっております。ワークショップに参加されない方でも回答いただけます。ご協力のほどよろしくお願いいたします。

アンケート:https://forms.gle/KjCXGZVckWLUXhtU8

オーガナイザー

  • 賀沢秀人(グーグル合同会社;代表者)

  • 高瀬翔(東京工業大学)

  • 清野舜(理化学研究所/東北大学)

  • 伊藤拓海(東北大学/Langsmith)