RL notes

Post date: Nov 26, 2018 9:00:49 AM

1. Model-based RL

Courses from Sergey Levine Lec 10.

2. Counterfactual policy evaluation(CPE)

Importance Sampling（IPS）: evaluate new policy p based on a given policy q. 通过已知的策略分布和样本，估计新的策略分布的value数值。原理如下，评估时对比新的策略的value数值和原有的，就是reward的期望。

E_p(r)

V_p = \int p(a|s) r da

= \int p/q q r da

= E_q (p/q r)

Importance sampling方法的variance比较大，只通过已知的点估计value，不确定太大，在没有样本点的地方，是估计不到的。

Direct Model（DM）学习数值函数reward(s, a). 模型对真实值的估计是有bias的。

Doubly Robust （DR）可以结合IPS和DM，利用DM的来降低IPS的variance，但是会引入bias，bias较低。

More Robust Doubly Robust (MRDR) 优化DM的loss，降低bias.

需要1.已知policy的分布，2.actor/policy的输出需要是stochastic，而不能是deterministic的。

Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang, Lihong Li

https://arxiv.org/pdf/1511.03722.pdf

More Robust Doubly Robust Off-policy Evaluation Mehrdad Farajtabar Yinlam Chow Mohammad Ghavamzadeh

https://arxiv.org/pdf/1802.03493.pdf

Horizon implemention: https://arxiv.org/pdf/1811.00260.pdf