RL notes
Post date: Nov 26, 2018 9:00:49 AM
1. Model-based RL
Courses from Sergey Levine Lec 10.
2. Counterfactual policy evaluation(CPE)
Importance Sampling(IPS): evaluate new policy p based on a given policy q. 通过已知的策略分布和样本,估计新的策略分布的value数值。原理如下,评估时对比新的策略的value数值和原有的,就是reward的期望。
E_p(r)
V_p = \int p(a|s) r da
= \int p/q q r da
= E_q (p/q r)
Importance sampling方法的variance比较大,只通过已知的点估计value,不确定太大,在没有样本点的地方,是估计不到的。
Direct Model(DM)学习数值函数reward(s, a). 模型对真实值的估计是有bias的。
Doubly Robust (DR)可以结合IPS和DM,利用DM的来降低IPS的variance,但是会引入bias,bias较低。
More Robust Doubly Robust (MRDR) 优化DM的loss,降低bias.
需要1.已知policy的分布,2.actor/policy的输出需要是stochastic,而不能是deterministic的。
Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang, Lihong Li
https://arxiv.org/pdf/1511.03722.pdf
More Robust Doubly Robust Off-policy Evaluation Mehrdad Farajtabar Yinlam Chow Mohammad Ghavamzadeh
https://arxiv.org/pdf/1802.03493.pdf
Horizon implemention: https://arxiv.org/pdf/1811.00260.pdf