2차원 객체 특징 샘플링을 통한 중심 기반 3차원 객체 검출
본 연구는 자율주행 환경에서 주변 물체들을 탐지하고, 각 물체의 3차원 정보를 추정하기 위한 것이다. 3차원 객체를 검출하기 전 각 이미지에서 2차원 객체와 depth를 먼저 검출한 뒤, 이를 re-parameterize 기술로 처리해 최종적으로 3차원 객체와 그 정보를 추정하는 방법이다.
DETR을 이용해, Multi-View 이미지 3D Object Detection처리를 하는 연구가 진행
DETR란 Transformer를 Object Detection에 적용, Hungarian Algorithm을 통해 one-to-one 학습으로, CNN기반의 Object Detection(one-to-many)의 필수적이었던 NMS 후처리를 하지 않음
N장의 feature map 중, 어떤 feature vector를 쓸것인가?
높은 해상도의 N장의 Feature Map을 너무 많은 Cost: 1/16 같은 낮은 해상도의 Feature Map을 사용 > 디테일한 정보를 담은 해상도를 사용하지 못함
Sampling을 통해 Feature Vector를 추출: Sampling 좌표를 Supervised하지 않고, 3D Object Detection의 Loss를 통해 간접적으로 학습 > 정확한 Sampling 좌표 생성이 어려움
2D Feature Map과 3D 공간을 어떻게 연결할 것인가?
3D Position Embedding : Depth를 모든 가능한 값을 두고, Embedding을 수행 -> 부정확한 Depth 값 사용
BEV representation : BEV로 변환하는 과정이 정확하지 않고, Z-axis 에러가 발생할 수 있음
Objectness-Driven Feature Sampling: 높은 해상도(1/4)의 이점을 가져가며, Object의 정보가 많이 포함된 Feature vector 추출
Object가 위치한 부분의 center를 샘플링
Reparameterization Trick을 이용한 Depth Sampling
3D Position Embedding에 사용되는 Depth Value를 3D Object Detection을 위한 Depth Distribution에서 추출
아래 그림은 본 연구에서 개발한 Object Feature Sampling 방법으로 2차원 객체 샘플링해, 각 2차원 객체의 중심 위치의 확률을 표시한 것으로, 붉게 빛나는 점들이 각 2차원 객체의 중심 위치를 뜻한다.
Result
본 연구 모델의 실험 결과 mAP는 성능이 우수했으나 나머지 지표에서는 성능이 다소 떨어지는 것을 볼 수 있다. 이는 전반적인 Object Detection의 성능(Classification, Box Regression)은 높지만, 세부적인 사항의 정확도가 낮은 것으로, 특히 3차원 객체의 속도를 추정하는 성능이 떨어지는데 이를 해결하기 위해선 2차 연구가 필요하다.