SISReL 박사과정 정휘영 학생의 논문 "Population-guided parallel policy search for reinforcement learning,” 이 인공지능분야 Top Conference 중 하나인 International Conference on Learning Representations (ICLR) 2020에 accept 되었습니다.

위 논문은 강화학습에서 Parallel Learning 을 이용한 성능 향상에 있어 기존의 Population-Based Learning (PBT) 알고리즘의 단점을 개선한 알고리즘입니다. 기존 PBT 알고리즘이 여러 agent로 구성된 parallel learning에 있어, 주기적으로 최고 성능의 agent를 뽑고, 그 parameter와 hyperparameter를 다른 모든 agent에 copy하는데 이 방식은 copy하는 순간 모든 agent의 policy가 한 곳에 merge하여 주기적으로 policy parameter search space 가 collapse하는 단점이 있습니다. 이에 반해 제안된 알고리즘은 best policy 의 parameter를 각 agent의 policy 가 search하는 direction 정보만 제공하도록 soft-fusion하고, 여러 agent policy 간 search 범위를 특정 이상 보장함으로써 빠르고 더 좋은 policy search가 가능합니다. 뿐만 아니라, 제안된 방식의 평균 성능의 단조 증가를 수학적으로 증명하였습니다. 앞으로 parallel reinforcement learning에서 좋은 reference algorithm이 되기를 기대해 봅니다.

논문링크: https://openreview.net/pdf?id=rJeINp4KwH