위 논문은 sparse한 환경에서 다중 에이전트들을 학습시키는 논문입니다.  다중 에이전트 환경은 에이전트들이 서로에게 영향을 미치기 때문에 학습하기 어렵고, 특히 sparse한 보상을 부여하면 학습하는 것이 더욱 어려워집니다. 이를 해결하기 위해 Experience replay buffer로 부터 각 에이전트는 제일 잘 했던 상태를 자신들의 subgoal로 설정하여 이 subgoal을 만족시키는 방향으로 학습을 합니다.

논문링크: https://arxiv.org/abs/2206.10607


위 논문은 환경 변화에 대하여 강인한 정책을 학습하는 새로운 강인한 모방학습 알고리즘을 제안한 논문입니다. 기존의 모방강화학습은 예상하지 못한 환경 변화에 제대로 대응하지 못한다는 문제점을 지적하였습니다. 이를 해결하기 위하여, 다중훈련환경에서의 새로운 목적함수를 정의하여 모방강화학습의 강인함을 효과적으로 향상시켰습니다. 앞으로 강인한 모방강화학습에 좋은 reference가 되기를 기대해 봅니다.

논문링크: https://arxiv.org/abs/2206.09314