RL notes

Post date: Nov 26, 2018 9:00:49 AM

1. Model-based RL

Courses from Sergey Levine Lec 10.

2. Counterfactual policy evaluation(CPE)

Importance Sampling(IPS): evaluate new policy p based on a given policy q. 通过已知的策略分布和样本,估计新的策略分布的value数值。原理如下,评估时对比新的策略的value数值和原有的,就是reward的期望。

E_p(r)

V_p = \int p(a|s) r da

= \int p/q q r da

= E_q (p/q r)

Importance sampling方法的variance比较大,只通过已知的点估计value,不确定太大,在没有样本点的地方,是估计不到的。

Direct Model(DM)学习数值函数reward(s, a). 模型对真实值的估计是有bias的。

Doubly Robust (DR)可以结合IPS和DM,利用DM的来降低IPS的variance,但是会引入bias,bias较低。

More Robust Doubly Robust (MRDR) 优化DM的loss,降低bias.

需要1.已知policy的分布,2.actor/policy的输出需要是stochastic,而不能是deterministic的。

Doubly Robust Off-policy Value Evaluation for Reinforcement Learning Nan Jiang, Lihong Li

https://arxiv.org/pdf/1511.03722.pdf

More Robust Doubly Robust Off-policy Evaluation Mehrdad Farajtabar Yinlam Chow Mohammad Ghavamzadeh

https://arxiv.org/pdf/1802.03493.pdf

Horizon implemention: https://arxiv.org/pdf/1811.00260.pdf