다중 해상도 특징을 이용한 의미적 분할 및 객체 인식
로봇의 자율 주행을 위해서는 반드시 로봇의 카메라로 보여지는 사물, 환경에 대한 거리를 추정해야 한다. Supervised Training의 경우 Target Data를 생성하기 어렵고, 만들어진 Dataset을 사용하여 학습을 진행하더라도 실제로 Real World에서는 제대로 작동하지 않는 경우가 많다. Self-Supervised Learning 방식을 이용하여 Target Data 없이도 Learning이 가능하도록 하고, 우리가 보유한 장비로 입력받은 Data로부터 학습을 가능하게 한다.
또한, Stereo Camera는 Mono Camera를 일정한 거리를 두어 양 옆으로 위치시킨 Camera인데, 사고가 발생하여 하나의 렌즈에 문제가 생기거나 입력이 들어오지 않는 경우라도 올바른 Depth Estimation을 진행해야 한다. 이는 사람 역시 한쪽 눈을 가리더라도 깊이 추정이 가능한 것과 같다.
그렇기에 우리는 Mono의 경우에도 Depth Estimation이 가능하고 Stereo의 입력을 받았을 경우에는 더욱 향상된 성능을 가지는 아래와 같은 모델을 제안한다.
Semantic Segmentation과 Object Detection을 동시에 진행할 수 있는 모델 제안
multi-resolution features를 모아 의미적 분할을 수행하는 Multi Resolution Feature Aggregation(MRFA) 모듈 제안
MRFA 모듈을 사용하여 pre-semantic segmentation을 수행 함으로써, object detection과 semantic segmentation의 성능을 모두 향상시키는 방법을 제안
Contribution
Global context와 각 resolution의 feature를 high resolution에서 합쳐서 multi-resolution feature map을 생성하는 MRFA모듈 제안
Multi-resolution feature map은 다양한 resolution의 정보를 한번에 합치므로 context 정보를 강화하고 공간 정보를 회복하여 semantic segmentation의 성능을 향상
객체 인식과 의미적 분할을 동시에 수행하는 경우에 의미적 분할의 로스 함수(loss function)로 이진 교차-엔트로피(binary cross-entropy)를 사용하여 객체 인식의 성능 저하를 막는 방법을 제안
Result
Semantic Segmentation: Cityscapes 데이터 셋에서 mIoU 78.0의 정확도와 31.1 FPS
Object Detection: COCO 데이터 셋에서 mAP 49.7, mIoU 60.9%의 높은 정확도와 28 FPS의 속도로, SOTA(state-of-the-art) 성능
Semantic Segmentation Visualization
Ground Truth
Our's Prediction
Object Detection Visualization
Ground Truth
Our's Prediction