Naoyaの部屋

[ε-greedy]

ε-greedyは確率ε(0以上1以下の定数)でランダムに行動を選択し、確率1-εで期待報酬が最大の行動を選択する方法。

TD学習 (時間差分学習, temporal difference learning）

現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。TD学習の代表的な手法としてSarsaとQ学習がある。

[Q学習]

Q学習ではQテーブルと呼ばれる各状態における行動のQ値を保有するテーブルを保持しており、得られた報酬、割引率などを用いて得られるTD誤差を最小化するように学習し、テーブルのQ値を更新していく。

Page updated

Google Sites

Report abuse