NLP2022参加記録

言語処理学会年次大会2022の振り返り

 こんにちは。木山と申します。都立大のB3の授業で「情報科学ゼミナール」という授業の一環で論文を作成し、NLP2022で発表することになったため参加することになりました。本記事では、ほぼほぼフル参加したNLP2022について振り返ってみます。自然言語処理にそこまで触れていないのでいろいろと稚拙なところもあるかもしれませんがご容赦ください。

スケジュール

 自然言語処理の初学者であることから、なるべくいろんな分野を見てみよう!というモチベーションで幅広く参加してみました。スケジュールを以下に載せます。ほとんどの日程に参加したので非常に疲れましたが、とても充実していたと思います。

  • 3/14

    • 13:00-14:45 チュートリアル2

    • 15:15-17:00 チュートリアル4

  • 3/15

    • 9:00-9:30 オープニング

    • 9:30-10:30 招待講演1

    • 11:00-12:20 機械学習

    • 13:20-15:00 論文

    • 15:20-17:00 教育応用

    • 17:20-19:00 埋め込み

  • 3/16

    • 9:00-10:20 ポスター

    • 10:40-12:00 ポスター

    • 13:20-15:00 対話

    • 15:20-17:00 マルチモーダル

    • 17:20-18:20 招待講演2

    • 19:00-21:00 懇親会

  • 3/17

    • 9:00-10:20 ポスター

    • 10:40-12:00 ポスター(発表)

    • 13:20-14:40 質問応答

    • 15:00-16:20 web/SNS応用

    • 16:40-18:10 招待論文

    • 18:10-19:00 クロージング

  • 3/18

    • ワークショップ(2をメインに1もすこしだけ)

チュートリアル

 チュートリアルはT2「ゼロから始める転移学習」とT4「最適輸送と自然言語処理」を選びました。というのも、自然言語処理の知識を十分持っているとは言えなかったため、初学者でもわかりそうなチュートリアルを選んでみました。

  • T2「ゼロから始める転移学習」

 資料が多く果たしてゼロから理解できるのか…?と思っていたら図が多くて概念的に少し理解できたチュートリアルでした。図の使い方がよくて、処理の流れが明瞭だった気がします。個人的にはsoftmaxを求める式の説明が分かり易かったです。ですが、まだまだ理解できていない部分もありしっかり復習して身に付けたいですね。そういえば、用語の定義がごっちゃになるから気を付けようという話があり、専門用語で議論するときの言葉に十分気を付けるべしと思いました。巨大なモデルを構築すれば精度がよいというのはわかるのですが、巨大でなくても精度がよいものを作ることが一つの研究のネタになるのかーとも思ったりしました。

  • T4「最適輸送と自然言語処理」

 最適輸送という問題を題材に簡単な例から数学的な記述まで理解しよう!というチュートリアルでした。おそらく大会中で最もslackが有効活用されたチュートリアルだったはずです(観測範囲内で)。slack読みながら説明しているの本当にレベルが高かったです…。slackほぼほぼtwitterみたいでした。スライドは色を付けて対応している個所をまとめていて、特に定式化した際のまとまりが分かり易くて前半の内容はかなり理解できた気がします。同じ問題を何週も説明することで取りこぼしがないように説明していたのがとても印象的でした。自分はまだNLP初心者なので具体的な応用例は思いついていないのですが、点群のコストを計算するときは最適輸送のお気持ちを思い出して試してみようかと思います。発表の仕方がエネルギッシュで研究が楽しいという雰囲気が伝わってきました。

 どちらのチュートリアルを見て思ったことがあります。それは、聴講者のことを第一に考えて資料を作ったり発表を行っていることです。当然と言えば当然なのですが、諸学者が陥りそうな落とし穴をしっかりと解説して、復習にも役に立つように丁寧に準備されていたことです。90分という限られた時間でどちらも内容の濃い発表をなされていたので、発表練習する際の一つの目標として参考にしていきたいです。今回見なかったチュートリアルについても録画が公開され次第見てみようと思います。

聴講

 口頭発表やポスター含めいろんな分野の研究発表を聴講しましたが、難しい話が多くこれが最先端の研究なのか…と思いながらすこしでも理解しようと頑張ってました。15分という限られた時間で発表するのは大変だなあとしみじみ思いました。また、内容もそうですが発表の仕方に着目して聴講していました。パワーポイントの使い方や言葉の使い方など15分で満足度 (?)が高かった発表をリストしているので、今後も参考にしていきたいなと思いました。口頭発表では毎回質問が出ていて、とても紳士的に対応していたのが印象的でした。あまり学会というものを知らないためかなり理詰めされたり、きついことも多いんじゃないかなと思っていましたが、建設的な議論が行われていて安心しました。初参加でNLPもしっかり勉強できていなかったので質問はできませんでしたが、次に参加するときは積極的に質問して理解を深めていきたいです。また、何人かの発表者がとても生き生きと自身の発表をしていて、とても楽しそうだなあと思うものがありました。招待論文では、「ここから先は集中して下さい!」のように概要を理解するために発表に緩急をつけたり、お気持ちを理解するために分かり易く説明したりなど、口頭発表のエッセンスが詰まっていて聞いていて分かり易かったです。

招待講演

 招待講演はどちらともNLPを別視点から見たときの考察が示されていて興味深かったです。

  • 自然言語を複雑系として捉える試み

 複雑系の講演では、言語科学的な立場からZipf則やTaylor則の話題が提供され我々が使う言語もこれに即しているのでは?という話を聞きました。この講演を聞いて思ったことは、別分野からのアプローチも十分有効であるということです。一つの分野にいてもよいのですが、別分野の知識とコラボレーションして新たな発見につながることもあるのだなと実感しました。専門領域を勉強するのは必要不可欠ですが、それ以上に視野を広げて勉強しておくことの意義もある気がしてきました。

  • 自然言語処理研究が乳幼児の言語発達研究から学べることは何か

 乳幼児の言語発達の講演では、乳幼児の言語獲得の研究や認知の研究事例を聞きました。言語獲得という意味では、数か月で主要言語以外のアクセントが判別不可になるというのは衝撃的でした。本当に幼いころからの学習で乳幼児の耳が発達するのは興味深い内容でした。認知に関しては亀傘実験がとても面白い題材でした。すべての亀が傘を持っているか?という問題に対して一匹だけ傘を持っていない亀がいるのですが、配置によって間違える人がいたり一種の錯覚的なものなのかなーとも思ったりしていました。認知科学的な内容も確かに言語処理に関わるわけなので、勉強する意義はあるのかなと思いました。

懇親会

 B3で発表が17日に迫る中懇親会に参加しました。ですが、多くの人と話すことができませんでした…。というのも、誰に話しかけてよいかすらわからず、ちょうど参加していた同じ大学の同期と話していました。個人的にこのような環境を作ってしまうと人が入りにくいのでは?と思っていたのですが、産総研の方や静岡大のB3の方が参加してお話ができて交流ができたと思います。gatherのzボタンで適当に踊っていた甲斐がありました。後半ではJDDさんが来てくださり少しだけ企業の話も伺うことができました。次があるときは、おそらく専門性が少しはついているはずなので積極的に話しかけていろんな人と話せるようになりたいです。この記事を参考に頑張ります。

 参考までにYANS懇親会も参加したのですが、zoomでブレイクアウトルームで3-5人くらいに分かれる形だったのですがそちらも結構よかったのでは?という感じです。ただ来年はオフラインで参加したいですね…。

発表

 3/17 10:40-12:00において「日本語文法誤り訂正の流暢性評価に向けたデータ作成」と題してポスター発表を行いました。内容としては、日本語文法誤り訂正において流暢性を考慮したデータセットが存在しなかったため、それを作成したというのが本論文の貢献となります。スライドデータについては公開していますので使ってみたい方はそちらをご参照ください。論文の方も公開時期が来ましたら公開いたします。

 ここで簡単に論文を作成するに至った経緯について説明しようかと思います。東京都立大学のB3は「情報科学ゼミナール」という研究室仮配属を行う授業があり小町研に配属することとなりました。各研究室ごとにテーマが与えられていて小町研のテーマが「データセットを作成して論文を書く」というものでした。ゼミナールの時間までに各自で与えられた文章を流暢な文に訂正し、授業時間で先生やTAの方の下全員で確認を行うという形で進行しました。途中で「語学学習支援のための言語処理」の一部も輪講しました。ある程度データが作成できたところで論文を書くことになりました。いろいろあって僕がメインで書くこととなったのですが、書き始める段階でTAの小山さんが概要や関連研究、実験などの部分を既に埋めてくださり、訂正基準や分析の部分を自分が作成し、研究室の先生方に添削するといった形で進めていきました。こういう意味で僕が筆頭著者でいいのかな…という迷いがありながら右も左もわからないまま論文を書き進めることになりました。TAの方や先生方の丁寧な添削によって直され、また作成し…といったものを繰り返して論文を投稿できた!という感じです。ポスター作成も研究室の先輩方のポスターや研究会での添削などを参考に頑張って作った感じです。発表練習をする機会がありそこでのアドバイスも十分に役立ちました。改めて、共著者の方々に多大なる感謝を申し上げます。ありがとうございました。

 といった形で本番を迎えることになりましたが、発表前日から緊張がすごかったです。うまく対応できなかったらどうしようとか、分かりにくかったらどうしようといった極度の緊張に襲われていて当日もめちゃくちゃ緊張していました。ポスター発表が始まる前に共著者の方々が集まって下さり、少しは気が楽になってました。時間になってからは発表に集中して何人来ているかわからなかったのですが、一時期20人弱程度も集まっていたらしいです。発表後の質疑応答でもうまく話せなかったりした部分は共著者の方々に助けてもらいました。発表が終わって、まだまだ未熟で自分の満足する発表ができなかったかな…と思いました。ただ、論文を書いたり実際にポスター作って発表するという経験をB3でできたのはとても有意義で、これから自分たちが行うであろう研究の概要を掴めたのがとてもよかったと思っています。なんとなく研究ってこんな感じで進めるのかな?というのが理解できた気がします。

  • 研究の流れ…?

  1. タスクを定義する(サーベイ)

  2. タスクに必要な材料を用意する(前処理、コーパスの作成など)

  3. タスクが解けるか実証してみる(実験)

  4. 結果を考察する

  5. 新たなタスクを定義する

 結果的に上記の論文で「若手奨励賞」を頂くことができました。僕の名前で受賞していますが、共著者の方々の貢献がとても大きくて本当に自分がもらってよいのか…?とも何度も考えてます。ただ受賞したことは変わらない事実だと思うので、この経験をばねにこの業界に何かしらの貢献をできたらいいなと考えています。B4でもめでたく小町研に配属されることになったのでこの経験を生かして頑張っていきたいです。

総括

 人生で初めての学会でしたが、お祭りのような雰囲気だったと思います。NLPが大好きな人たちがいっぱい集まって盛り上げようとする雰囲気がひしひしと感じられ、来年も機会があるのであればぜひとも参加したいなと思ってます。そういえば、実行委員の方が「わかる年次大会」にしたいという話をしていた気がしますが、少なくとも僕は学びが多く様々なものが経験できた時間でした。改めまして関係者の方々に多大なる感謝を申し上げます。ありがとうございました。そして、これからもよろしくお願いします!