YANS2022参加記録

はじめに

 こんにちは,都立大B4の木山と申します.先日行われたNLP若手の会 (YANS2022) に発表参加しました.得るものが非常に多く自分の文字でまとめてみたいと思い,参加記録を書くことにしました.懇親会含め,3日間丸ごとYANSに参加しました.いちB4の感想として見ていただけれたら幸いです.自然言語処理を本格的に学び初めて半年しか立っておらず,理解が曖昧になっている部分が多いかと思います.誤字脱字等何かありましたら,DM等で連絡していただけるとありがたいです.

懇親会

ちょっとだけ自分語りが入るのですが,私はNLP2022の懇親会に参加して,その時は緊張で人と積極的に話に行けなかったのです.懇親会は学外の人と繋がる貴重な機会であり,次があるならもっと積極的にいきたいと思っていました.その反省を活かし,今回の懇親会ではいろんな人と話すことを目標に動きました.

今年のYANSでは懇親会が前夜祭として実施されました.YANSの参加申込時に事前に興味のあるトピックを選び,それに従ってzoomのブレイクアウトルームの割り当てが行われる,というものでした.15-20分程度単位で割り当てが変更するものでしたが,盛り上がっていると時間がない!ということも多かった印象でした.また,ルームによっては人が集まらないこともあり,その場合は別のブレイクアウトルームに移動できるというのも良い仕組みだと思いました.個人的には,以前と比べていろんな話ができた気がします.また,zoomでの懇親会が終わった後でも,gatherの方で雑談会が開かれており,そちらにも参加しました.僕の研究に対してコメントをもらったり,他大学の同学年の人と話したり,自分より上の学年の人たちの話を聞いたりと普段ではないような経験ができて,懇親会だけでも参加する価値があったと思いました.

個人的に,できているグループに新しく入って話すのが苦手なので,次に参加できる時はタイミングをうまく見抜いて雑談に参加できるようになりたいなと思いました.大体23時くらいまで話していて,明日が早いからと早めに離脱することになりました.

一日目

一日目はオープニング,チュートリアル2つ,ポスターセッション3つという日程で行われました.

チュートリアル1「学術情報処理と推薦」

論文の著者の評価指標から始まり,論文の推薦手法を説明するチュートリアルでした.B3後期の授業でデータマイニングに関する内容を勉強したこともあり,理解しやすかったです.h-indexやIFなどどこかで聞いたことがあるような指標の解説や,論文の推薦手法,論文推薦評価手法について学日ました.一番印象に残ったのは,万能な評価手法は存在しない!ということです.評価手法ごとのメリット,デメリットを理解した上で健全な比較ができるのかを考える必要があるなと思いました.また,ドメインに特化したBERTを用いたとしてもgeneralなBERTの方が性能が良いという結果は驚きでした.必ずしもドメインに特化したモデルが優位ではないというのは直感に反しますし,原因みたいなところが気になりました.改めて,データマイニングの授業を復習してみようかなと思ったチュートリアルでした.

チュートリアル2「対話システムのすすめ」

対話の定義から始まり,タスク志向などの分類,評価の話を学んだチュートリアルでした.説明の合間に対話システムのデモがあったりして,実際にどのようなシステムなのか,そしてどこまでできて,どこまでできていないのかがわかりやすかったです.個人的に対話分野は,年次大会でも新米の会でも盛り上がっているイメージだったのですが,対話の人を増やすという目的でチュートリアルが始まっていてびっくりしました.質問で,対話のデータセットの話があったのが印象的でした.やはりデータセットは大事ですね.

ポスターセッション

ポスターセッションに参加した時に,他の人の発表時間が長くびっくりしました.研究室内では5,6分程度の発表という感じで用意していました.ですが,発表10分,質問5分みたいにとって4サイクル程度で回している人が多かったと思います.その影響もあって1セッションで3,4ポスターしか見れなかったのは心残りです.(とはいっても時間長くするのも大変そうだし録画公開みたいなのもよいのでは...?)個人的には,ポスターの内容を口頭発表のようにスライドにまとめて,見やすいように説明していたのも印象的でした.gatherの発表者ツールが少ないので,やっぱりスライド形式で発表した方がわかりやすい気がしました.

発表練習会

懇親会にて,昨年は何人かが集まって発表練習をしたという話を聞きました.そこで勇気を持ってslackのrandomで人を集めたら,10人くらい人が集まって発表練習をするという時間が生まれました.集まってくれた方には本当に感謝です.そこで自分の発表をみてもらったのですが,研究内容や発表の仕方に関するかなり良いフィードバックをもらいました.ここで思ったこととして,自分ではわかったつもりでも相手に伝わっていないことが多かったことです.初めて発表を聞いた人に自分の研究内容を理解してもらうには,丁寧に論理的飛躍がないようにポスターや原稿を用意するのが重要だなと思いました.

二日目

二日目は,招待セッション4つ,ポスターセッション2つ,クロージングという日程で行われました.

招待セッション1「多言語機械翻訳モデル」

多言語機械翻訳とそのモデル,そして性能向上の研究について学んだセッションでした.YANSの前にNLPコロキウムでも発表を聞いていたため,理解がしやすかったです.多言語機会翻訳モデルのゼロショット方向で翻訳できてしまうのが面白いなと思って聞いていました.ターゲット言語推定タスクの導入と,勾配ベクトルの再射影を行うことで性能が向上していたのが結構印象的でした.ターゲットオフ問題の解決方法が二つのNNを用いて言語を推定するというのがかなり面白かったです.

招待セッション2「意見要約システム

意見要約システムの作成,ユーザの意思決定の補助の二つの話を学んだセッションでした.システムの作成においては,レビューの平均を用いるのではなく,潜在空間の中に良いベクトルがあると仮定して複数生成してリランキングすると良いという話でした.平均ベクトルは中心に近い関係でgeneralな内容になるというのも面白い内容でした.また,意思決定の補助においては,一つのレビューの要約がgeneralな意見になりやすいから,二つのレビューから共通しているもの,異なっているものを抽出しそれをレビューに反映するという流れが自然でとても良いなと感じました.


ポスターセッション(発表)

二日目の午前のセッションにて「Causal言語モデルによる機械翻訳」の発表を行いました.前日の発表練習会や,一日目のポスター発表を参考にして,もとの5分くらいの発表をより丁寧に説明する方針に切り替えて発表しました.この日は朝から水しか通らなくて大変緊張していましたが,頑張って発表できたと思います.ありがたいことに多くの質問や感想をいただけたので,できそうなことから順にやっていきたいなと思いました.(ポスターは公開しているので興味がある方はこちらへ)ただ,ポスター発表が終わると集中力が切れてしまったのか,体調が若干悪くなってしまいました.次にこのような機会がある時は,しっかり体力をつけて発表に臨めたら良いなと思います.

招待セッション3「歌詞情報処理」

歌詞情報処理という分野を立ち上げた話にまつわるセッションでした.歌詞の繰り返し構造に着目してサビを認識したり,休符のあとに次のセグメントが始まるなど,歌詞の分析でここまでできるのかと驚いた内容でした.途中で作成した歌詞を使って曲ができていたのがとても印象的でした.後半の「仲間を見つける」という部分が特に心に残りました.とにかく人と話してチャンスを掴もうというのが重要で,雑談の大事さというか,人と関わる機会を増やすのが大事だなと改めて思いました.自分はセルフプロデュースは足りないなと思うので,色々とできそうなことは進めていきたいです.

招待セッション4「負例サンプリング」

負例サンプリングとは何かを学ぶセッションでした.単語埋め込みを元の目的関数を用いて学習すると計算コストが高いことから,負例サンプリングを導入して高速化を図るというお話でした.これが一種のlabel smoothingになって,性能向上につながるのが良い,そして言語モデリングや知識グラフの埋め込みへの応用があるなど学ぶことができたと思います.結構,理論的というか基盤になる部分の内容で知らなかったところも多く,改めて復習してみたいなと思っています.理論的に近いような内容の研究も面白そうです.個人的に後半二つのセッションはスライドも含めボリュームがすごかった印象があります.

総括

まず,自分の研究が奨励賞に選ばれてとても嬉しかったです.メンターの方々に感謝し切れてもし切れないので,この経験をバネにもっとレベルアップしたいなと思っています.YANSが終わった後に思ったこととして,この三日間がとても濃い内容だったなということです.いろんな人の発表やポスターをみて,良い発表だったり,分野などが知れる貴重な機会だったと思います.自分の知識がまだまだだなと実感したので,これからもしっかり研究や論文サーベイを続けて年次大会で成長した姿を見せれたらいいなと思います!みなさん,年次大会で会えたらよろしくお願いします!