<팀원>
디지털미디어학과 송재혁
디지털미디어학과 윤병선
디지털미디어학과 이재찬
<팀원별 활동내용>
송재혁
- Unity ML-Agents 기반으로 다양한 강화학습 알고리즘(DQN, DDPG, BC, GAIL)을 학습 및 실습하였다. 드론 제어 및 카트 레이싱 환경을 구현하며 경험 리플레이, 탐험 전략, 노이즈 파라미터를 조정하여 학습 성능 변화 관찰
윤병선
- Unity ML-Agents 학습
- 머신러닝 관련 알고리즘 학습
- 알고리즘 실습
- ML-Agents를 활용한 개인 프로젝트 진행
이재찬
- Unity ML-Agents를 기반으로 다양한 강화학습과 모방학습 기법 실험
- 드론 제어 및 카트 레이싱 환경을 직접 구현하고 DQN, DDPG, BC, GAIL 알고리즘을 적용하여 학습 진행
- 경험 리플레이·탐험 전략·노이즈 파라미터 등 핵심 요소를 조정하며 학습 안정성과 성능 변화 관찰
<팀원별 최종성과>
송재혁
- Unity ML-Agents를 활용해 DQN, DDPG, BC, GAIL 알고리즘을 실습하고 Tensorboard로 학습 결과 분석
- 카트 레이싱 및 드론 제어 환경을 제작하며 강화학습 적용 가능성을 시험했고, Python 및 C# 역량을 함께 향상시킬 수 있었음
윤병선
- DQN, A2C, DDPG, Behavioral Cloning 알고리즘 학습
- ML-Agents 개인 프로젝트 구현
- Python, C# 역량 강화
이재찬
- Python과 Unity ML-Agents의 사용 방법을 익히며 강화학습 실험을 직접 수행할 수 있는 기반 마련
- 학습 과정에서 Tensorboard를 활용해 보상과 손실 곡선을 시각적으로 확인하며, 학습 안정성과 정책 개선 과정을 구체적으로 파악할 수 있었으며, 단순히 결과를 확인하는 것에 그치지 않고, 이후 학습 전략을 어떻게 발전시켜야 하는지 방향을 잡을 수 있었음
- 알고리즘별로는 DDPG에서 Actor·Critic 손실이 안정적으로 수렴하는 과정을 확인했고, BC는 전문가 데이터를 기반으로 안정적인 학습 및 검증 성능을 보여주었으며, GAIL은 전문가 정책을 효과적으로 모방할 수 있음 검증함. 더불어 개인 프로젝트로 자유투 시뮬레이션 환경을 제작하여 강화학습 적용 가능성을 시험하며, 실제 문제를 학습 환경으로 구현하는 경험을 쌓을 수 있었음
<팀원별 향후계획>
송재혁
- 단일 에이전트 환경을 넘어 다양한 시뮬레이션에서 다중 에이전트 학습(MARL)을 적용할 계획임
- Unity ML-Agents에서 지원하는 MA-POCA 기법을 활용하여 여러 에이전트가 협력하거나 경쟁하는 구조를 설계하고, 이를 통해 협동 학습과 상호작용 전략을 탐구하고자 한다. 또한 환경의 복잡성이 증가함에 따라 학습 안정성을 높이기 위해 Adversarial PPO를 적용해 정책의 강건성과 일반화 성능 강화 예정
- 학습 과정은 Tensorboard로 시각화하며, 하이퍼파라미터 최적화와 알고리즘 비교를 병행하여 성능을 개선하고, 최종적으로는 실제 환경에 가까운 다중 시뮬레이션 환경을 구현하는 것을 목표로 함
윤병선
- Sensor를 활용한 프로젝트 추가 진행
- Python 추가 학습
- 머신러닝 관련 알고리즘 추가 학습
이재찬
- 단일 에이전트 환경을 넘어 더 복잡한 시뮬레이션에서 에이전트를 학습시키고, 다중학습(MARL)을 통해 여러 에이전트가 협업하여 문제를 해결하는 구조를 구현할 계획임
- 특히 팀워크가 중요한 과제나 상호작용이 필요한 환경을 설계하여 에이전트 간의 협동·경쟁 학습을 동시에 탐구하고자 함. 이를 위해 Unity ML-Agents에서 지원하는 MA-POCA 기법을 활용해 다중 에이전트 간 정책 공유 및 협업 학습 방식을 실험할 예정
- 또한 환경의 복잡성이 커질수록 안정적 학습이 어려워지므로, Adversarial PPO 기법을 적용해 정책의 강건성과 일반화 성능을 강화하고자 한다. 학습 과정은 Tensorboard를 통해 시각화하며, 하이퍼파라미터 최적화와 알고리즘 비교를 병행하여 성능 개선을 도모할 것임
- 최종적으로는 자유투 시뮬레이션을 넘어 실제 경기와 유사한 다중 환경을 설계해 실질적 응용 가능성을 높이는 것을 목표로 함
<발표자료>