SISReL 정휘영 박사 주저자의 논문 "Quantile Constrained Reinforcement Learning: A Reinforcement Learning Framework Constraining Outage Probability"이 Machine Learning 분야 Top Conference 중 하나인 NeurIPS 2022에 accept 되었습니다.

본 논문은 cumulative sum cost 가 일정 threshold를 넘어갈 확률인 outage probability에 대한 constrained RL problem을 Lagrange multiplier 방법을 이용하였을때 policy gradient를 계산할 수 없다는 문제를 지적하고, policy gradient를 estimation하는 이론적인 방법을 제시하였습니다. 또한 distributional RL의 방법과 Large Deviation Principle (LDP)에 기반하여 제안한 알고리즘의 implementation을 제시하였습니다.

Outage probability에 대한 constrained RL problem은 안전성이 중요한 실제 환경에서 중요한 만큼, 앞으로 Constrained RL 및 Safe RL 분야의 좋은 reference가 되기를 기대해 봅니다.