「大規模言語モデル入門」感想

都立大修士1年の佐藤(@negi3soaya)です。

NLP研究室に所属して2年経ちますが分かんないことだらけでヒィヒィ言ってます。

昨今のLLM の波に追いつくために、技術評論社より出版された「大規模言語モデル入門」を読んでみたので、その感想をまとめてみました。

本書をご恵贈くださった著者の山田康輔さん(@kosyamada )にはこの場をお借りしてお礼申し上げます。

全体の感想

最新トピックもありつつ、言語モデルの基礎技術も網羅されていて入門書としてとても良かったです。LLM はこれから勉強するけど機械学習や自然言語処理に少しは触れたことがある!って方にちょうどヒットする内容だと思います。NLPをガッツリやっていてサーベイ目的で読む場合には物足りない気がします。

個人的にはTransformerの説明がめちゃくちゃ丁寧なのがありがたかったです。恥ずかしながら原論文は読んだけど理解が穴ボコ状態だったので、パーツごとに詳細に解説してくれるの神かと思いました😭

内容古いみたいなレビューもあったけど、入門書なのでちゃんと順を追って説明してくれてるのかなと思います。至る所に「執筆時点の情報です」って書いてあって、この本の最新部分もすぐ古くなっちゃうのかな...って思うと恐ろしいです。

あとは実装付きなのも嬉しかったです。ライブラリ使いまくるのでスクラッチ実装が好きな方には合わないかもしれないですが、手っ取り早く動かしてみたい派にはぴったりです。GitHubにGoogle Colabのコードがあるので実行するだけでほんとにすぐ動かせます。


ここからは各章ごとの感想メモを残します。

第1章 はじめに

transformersライブラリをこの後からめちゃくちゃ使うのでそのチュートリアルとニューラルネットワークの基礎がまとめられています。ここで詰まらない人にちょうど良い難易度?

第2章 Transformer

Transformerの各層がどんなことをしてるのかをじっくり書いてくれています。理解した気になって忘れちゃってまたここだけ読み直しそうです。

3章 大規模言語モデルの基礎

GPT・BERT・RoBERTa・T5が取り上げられて、事前学習とファインチューニングでどんなことしてるかそれぞれまとめてあります。NLPやってる人は見飽きた内容かもしれないです。後続のモデルや使われてる大規模コーパスとかは知らないものもありました。

4章 大規模言語モデルの進展

ここからLLMって感じになります!スケーリング則、文脈内学習、指示チューニング、RLHFとか!個人的には指示チューニングとRLHFの比較が面白かったです。

5章 大規模言語モデルのファインチューニング

エラー分析のやり方まで丁寧に説明されてることってあんまりない気がします。メモリ効率の良いファインチューニングのところがめっちゃ勉強になりました。

6章 固有表現認識

固有表現認識やってみたい時に絶対読み直そ!と思いました。アノテーションツールまで紹介してくれるの優しいですね...

7章 要約生成

ここで評価指標とか探索アルゴリズムの話が出て来ます。脳死で先行研究に従わずにちゃんとこの辺を適切に選択できるようになるべき...

8章 文埋め込み

NLPやってるのにSimSCEとFaiss初めて触りました...///

文埋め込みモデルの話ばっかでLLMどこ行った...?ってなったけど用途によってはLLMよりこっちの特徴量使った方がベターって言いたかったのかしら...

9章 質問応答システム

やっとChatGPT!ゴールって感じがしていい構成!でもここだけまだ動かしてない!

API使用料金の見積もりのところが個人的にウケました。

まとめ

今回は「大規模言語モデル入門」を読みました!

幅広いタスクについてデータの前処理から評価方法まで知れるので新しいタスクやる時とか研究室新入生とかの心強いお守りになる気がします。

気になった方は是非チェックしてみてください!!