[ε-greedy]
ε-greedyは確率ε(0以上1以下の定数)でランダムに行動を選択し、確率1-εで期待報酬が最大の行動を選択する方法。
[ε-greedy]
ε-greedyは確率ε(0以上1以下の定数)でランダムに行動を選択し、確率1-εで期待報酬が最大の行動を選択する方法。
現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。TD学習の代表的な手法としてSarsaとQ学習がある。
[Q学習]
Q学習ではQテーブルと呼ばれる各状態における行動のQ値を保有するテーブルを保持しており、得られた報酬、割引率などを用いて得られるTD誤差を最小化するように学習し、テーブルのQ値を更新していく。
[BACK]