1~10 (*はB4,M1から所属の学生は一旦スキップしてもよい) は必須とし,11以降のトピックについてはそれぞれの具体的な研究課題に合わせて深堀してもらうことを想定している.
注意:他大学所属の修士から高井研で研究することを希望する学生で,強化学習に関連したシステム制御の研究に取り組みたい方に関しては,自学や所属研究室における卒業研究で 1,2,4,6,7,9 に関する内容は習得していることが望ましい.
強化学習の定式化 [PDF]
マルコフ決定過程,価値関数,ベルマン方程式など,強化学習で用いる基礎的な概念について学ぶ.
参考文献:これからの強化学習1.2~1.3
SARSAとQ学習 [PDF] [実装]
状態遷移確率が未知の場合の代表的な価値関数学習アルゴリズムであるSARSAとQ学習を学び,迷路問題,Cart-Pole問題に対してこれらを実装する.
参考文献:これからの強化学習1.3,つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~
モンテカルロ法とTD学習* [PDF]
価値関数を学習する二つのアプローチを学び,ハイブリッド型のアルゴリズム TD(λ)法について学ぶ.
参考文献:速習強化学習 2.1
深層Q学習① [PDF] [実装]
連続値の状態を扱うため,最適行動価値関数をニューラルネットワークで学習する深層Q学習の基礎について学び,Cart-Pole 問題もしくは Atari のビデオゲームに対して深層Q学習アルゴリズムを実装する.
参考文献:https://arxiv.org/pdf/1312.5602, https://www.nature.com/articles/nature14236, つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~のDQN部分
深層Q学習②* [PDF]
優先度付き Experience Replay, Double Deep Q-learning, Dueling Network などの深層Q学習の改良手法,またそれらに期待される効果について学ぶ.
参考文献:https://arxiv.org/pdf/1710.02298
連続行動と方策勾配定理 [PDF]
連続値の行動を扱うため,方策を関数近似する方法,方策の更新方法の理論,REINFORCE アルゴリズムについて学ぶ.
参考文献:これからの強化学習 1.4,https://papers.nips.cc/paper_files/paper/1999/hash/464d828b85b0bed98e80ade0a5c43b0f-Abstract.html
方策最適化アルゴリズム [PDF] [実装]
具体的なアルゴリズムとして,Trust Region Policy Optimization と Proximal Policy Optimization を学ぶ.PyBullet 環境のベンチマークに対して Proximal Policy Optimization アルゴリズムのコードを実装する.
参考文献:https://arxiv.org/abs/1502.05477, https://arxiv.org/abs/1707.06347
決定的方策勾配法* [PDF]
決定的方策勾配定理の理論について学ぶ.
参考文献:https://proceedings.mlr.press/v32/silver14.html
深層決定的方策勾配法 [PDF] [実装]
Deep Deterministic Policy Gradient 法とその改良手法 Twin Delayed Deep Deterministic Policy Gradient 法について学ぶ.PyBullet 環境のベンチマークに対して Deterministic Policy Gradient アルゴリズムを実装する.
参考文献:https://arxiv.org/abs/1509.02971,https://arxiv.org/abs/1802.09477
エントロピー正則化つき強化学習* [PDF] [実装]
エントロピー正則化について学び,代表的な手法 Soft Q 学習と Soft Actor Critic 法について学ぶ.PyBullet 環境のベンチマークに対して Soft Actor Critic アルゴリズムを実装する.
参考文献:https://arxiv.org/abs/1702.08165, https://arxiv.org/abs/1801.01290
Control as Inference [PDF]
最適制御問題を推論問題としてとらえ,Soft Q 学習や Soft Actor Critic 法を導出する.
参考文献:https://arxiv.org/abs/1805.00909
モデルベース強化学習概論 [PDF]
モデルベース強化学習の3つアプローチ(勾配ベース,サンプルベース,Dynaベース)について学び,その長短を理解する.また,興味のある手法を調査し,輪講する.
参考文献:https://arxiv.org/abs/1907.02057
モデル予測制御と強化学習 [PDF]
システム制御で発展してきたモデル予測制御(連続最適化ベース,サンプルベース)について学び,強化学習との融合研究について調査し,輪講する.
参考文献:https://arxiv.org/abs/1810.13400, https://arxiv.org/abs/1904.04152, https://arxiv.org/abs/2306.09852, https://arxiv.org/pdf/2501.15897, https://arxiv.org/abs/2502.02133
モデルベース強化学習と世界モデル [PDF]
World Model の内容を理解し, Planet, Dreamer, TD-MPC などの発展手法を輪講する.
参考文献:https://arxiv.org/abs/1803.10122, https://arxiv.org/abs/1811.04551, https://arxiv.org/abs/1912.01603, https://arxiv.org/abs/2010.02193, https://arxiv.org/abs/2203.04955
Sim to Real [PDF]
シミュレータで事前学習をおこないその後,現実世界に適用しながら少サンプルでギャップを埋める学習法やドメイン乱択化のようなシミュレータのパラメータギャップに頑健な学習法について学んだうえで,論文調査をし輪講する.
参考文献:https://arxiv.org/abs/2009.13303, https://arxiv.org/abs/2502.13187
微分可能シミュレータと強化学習 [PDF]
微分可能シミュレータについて学び,強化学習へ応用する手法 Policy Optimization via Differentiable Simulator や Short-Horizon Actor Critic について学んだ上で,発展的な手法を調査し,輪講する.
参考文献:https://proceedings.mlr.press/v139/mora21a.html, https://arxiv.org/abs/2204.07137, https://arxiv.org/abs/2405.17784, https://arxiv.org/abs/2312.08710, https://arxiv.org/abs/2412.12089
制約付き強化学習 [PDF]
制約付きマルコフ決定過程についての定式化を学び,サーベイ論文を用いて著名な手法の概要を学ぶ.その後,発展的な手法を調査し,輪講する.
参考文献:https://www.ijcai.org/proceedings/2021/0614.pdf, https://www-sop.inria.fr/members/Eitan.Altman/TEMP/h.pdf
安全探索型強化学習 [PDF]
システム制御で発展してきた,Control Barrier Function などを用いた不変集合ベースの危険行動 Shielding の作り方を学び,強化学習との融合研究を調査し,輪講する.
参考文献:https://arxiv.org/abs/1903.08792, https://arxiv.org/abs/1708.08611,
部分観測強化学習 [PDF]
環境の状態の一部を観測できない部分観測マルコフ決定過程の定式化について学び,RNN や Transformer を用いた部分観測用アルゴリズムについて調査し,輪講する.
参考文献:https://openreview.net/pdf?id=cddqs4kvC20
非定常強化学習 [PDF]
強化学習における非定常設定や,隠れモードマルコフ決定過程,文脈マルコフ決定過程などの定式化について学び,サーベイ論文を用いて主要なアプローチについて学ぶ.その後,発展的な内容を調査し,輪講する.
参考文献:https://dl.acm.org/doi/pdf/10.1145/3459991, https://arxiv.org/pdf/1502.02259
模倣学習とオフライン強化学習 [PDF]
デモデータがある場合の方策学習法として,Behavior Cloning や DAgger を学ぶ.その後,デモデータを用いた強化学習であるオフライン強化学習のサーベイペーパーを輪講し,概要をつかむ.
参考文献:https://arxiv.org/abs/2005.01643, https://arxiv.org/pdf/2203.01387
逆強化学習と報酬整形, 多目的強化学習 [PDF]
熟練者のデモデータを用いて,それを再現するための報酬関数を学習する方法について学び,発展的な手法を調査し,輪講する.
参考文献:https://arxiv.org/abs/1806.06877, https://people.eecs.berkeley.edu/~pabbeel/cs287-fa12/slides/inverseRL.pdf
Transformer と強化学習 [PDF]
Transformer を用いたオフライン強化学習法である Decision Transformer について学び,発展的な手法を調査し,輪講する.
参考文献:https://arxiv.org/abs/2106.01345, https://arxiv.org/abs/2202.05607
LLM と強化学習 [PDF]
大規模言語モデルの Finetuning 等に強化学習を用いる RLHF や DPO について学び,システム制御や強化学習の発想を用いたその後のアライメント,ジェイルブレークに関する手法について調査し,輪講する.
参考文献:https://arxiv.org/abs/2312.14925, https://arxiv.org/abs/2305.18290
PDF や 実装は準備でき次第,リンクを追加予定だが,基本的には参考文献で勉強してもらうことをお勧めする.
参考図書:
理論を勉強する教科書
牧野 貴樹,澁谷 長史,白川 真一,これからの強化学習
とりあえず、強化学習についての前提知識をつけるために1章が有用.2章以降はある程度力がついてから読み物としておすすめ.
Csaba Szepesvari, Algorithms for Reinforcement Learning, https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf (邦訳版 "速習 強化学習" もあり)
少し理論的な記述だが,深層化される前の強化学習の概要をつかめる.
Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction http://incompleteideas.net/book/the-book-2nd.html
もっとも教科書として用いられている本.邦訳版もあり.
Hao Dong, Zihan Ding, and Shanghang Zhang, Deep Reinforcement Learning Fundamentals, Research and Applications
深層化後の強化学習の概要をつかんでもらうために、池本がよくお勧めする本.ここで大枠を理解して、元論文で細かく勉強してもよい.
Alekh Agarwal, Nan Jiang, Sham M. Kakade and Wen Sun, Reinforcement Learning: Theory and Algorithms https://rltheorybook.github.io/
サンプル複雑性,リグレット解析など理論的トピックを扱っている教科書.
森村 哲郎, 強化学習 (機械学習プロフェッショナルシリーズ)
理論は裏切らないを裏切らないかなり理論的な内容.
Nan Jiang, Introduction to RL: https://nanjiang.cs.illinois.edu/cs443/
実装関係の教科書
小川 雄太郎, つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~
Q-learning や DQN などを迷路問題を実装したり、OpenAI gym の cart-pole の制御を実装できる.
布留川 英一, OpenAI Gym Baseline 深層学習・強化学習 人工知能プログラミング実践入門
Open AI Gym の使い方や Stable Baseline の使い方を勉強できる.
久保 隆宏, 機械学習スタートアップシリーズ Python で学ぶ強化学習 入門から実践まで
深津 卓弥,菱沼 徹,荒牧 大輔,Python と CasADi で学ぶモデル予測制御
システム制御寄りに研究する人向けの実装本.