딥러닝 기반 BEV Semantic Segmentation 모델 연구
본 연구는 자율 주행을 위한 planning 기술을 개발한 것으로, 이를 위해 3D world에서 정의된 perception 결과를 사용 한다.
Camera-based perception을 하는 경우 planning을 위해 camera image coordinate에서 정의된 결과를 3D world coordinate로 변환하는 과정을 필요로 한다. 하지만 2D에서 아무리 정확한 perception 결과가 있다 하더라도 3D로 변환 하는 과정에서 정확한 depth 값을 알기 힘들기 때문에 왜곡이 일어나게 된다.
이 문제를 해결하기 위해 차량에 설치된 여러 대의 camera로 부터 바로 Bird's Eye View로 표현된 semantic segmentation map을 출력하는 task를 수행하였다. 이 task를 수행하는 모델은 아래 2가지 모듈을 필요로 한다
RGB image로 부터 semantic segmentation feature 추출
camera image coordinate에서 정의된 RGB image feature를 BEV에서 정의된 feature로 변환
이를 통해 아래와 같이 학문적으로 기여했다.
Spatial Pyramid Feature (SPA) 모듈을 사용하여 spatial info와 context info를 모두 가진 semantic segmentation feature 생성
Transformer를 사용해 RGB image feature를 BEV에서 정의된 feature로 변환하는 새로운 방법 제안
Real-time SOTA인 Cross-view Transformers 보다 3fps 더 빠르며 2~3% 더 높은 IoU 달성
Result
순차적 image data는 Neural Network의 output를 견고하게 만듬
이런 순차적 image data를 활용하여 차량 주변에 상황을 더 잘 파악
Planning에 필요한 차량 주변을 파악 할 수 있는 BEV Semantic Segmentation Model을 개발하고자 함