強化学習の目的は、環境(environment)と相互作用し得られる報酬(reward)の累積和である収益(return)を最大化する方策(policy)を見つけることである。
強化学習は、大きく以下の3つの種類に分類される。ただし、このような分類は日本の強化学習の文献ではあまり一般的ではないように思われる。
[モデルベース強化学習(Model-based Reinforcement Learning)]
環境のモデル(状態遷移や報酬の予測などを表す数式や関数)を学習し、そのモデルを使用して最適な行動を選択する手法。
環境のモデルを学習するためには、環境の状態遷移や報酬を実際に観測する必要がある。
[モデルフリー強化学習(Model-free Reinforcement Learning)]
環境のモデルを学習せず、実際の行動と報酬の履歴から、最適な行動を選択する手法。
モデルを学習する必要がないため、環境の実験的な評価が容易であり、実世界の問題に適用することができる。
[オンライン学習とオフライン学習(Online and Offline Reinforcement Learning)]
オンライン学習は、エージェントが環境とインタラクションしながら学習を行う手法。
オフライン学習は、あらかじめ収集されたデータを使用して学習を行う手法である。
オンライン学習は、現実の問題に適用することができるが、安全性やデータ収集の費用が問題になることがある。一方、オフライン学習は、データ収集の費用が安く、安全性の問題もないが、収集されたデータに偏りがある場合や、古いデータが含まれている場合がある。