객체 분할 및 다중 시점 (Multi-view) 영상 내의 Instance Matching 알고리즘 개발
Object Detection은 물체의 중심 좌표 및 물체의 대략적인 크기를 Bounding box로 표현하여 물체의 모양을 정밀하게 표현할 수 없는 단점이 있습니다. 또한, Box 내에 불필요한 배경이 포함될 수 있고 물체가 겹쳤을 때 Box 정보만으로는 어떤 물체가 앞에 있는 것인 지를 알 수 없습니다.
Semantic Segmentation은 영상을 per-pixel level에서 Classification을 수행합니다. Object Detection에 비해 정밀한 모양의 결과를 얻을 수 있지만 영상을 Class 단위로 구분하기 때문에 같은 Class를 갖는 서로 다른 물체를 구분할 수 없다는 단점이 있습니다. 예를 들어 철수와 민수가 반쯤 겹쳐 있는 영상이 있다면, 이를 사람1, 사람2로 구분하지 않기 때문에 그저 해당 위치에 사람이 있는 것만 알 수 있을 뿐 몇 명이 있는 지는 알 수 없습니다.
Instance Segmentation은 영상 내에서 물체를 탐지하여 해당 물체가 차지하는 영역을 Instance 별로 구분하는 연구 분야입니다. Object Detection과 Semantic Segmentation의 단점을 보완한 연구 분야라고 할 수 있습니다. Panoptic Segmentation은 이보다 더 나아가서 Instance 및 Class 구분을 per-pixel level에서 수행하는 연구 분야입니다. 이는 앞서 언급한 두 Task보다 어려운 작업이므로 이를 해결하기 위해서는 보다 정교한 알고리즘이 필요합니다.
본 연구실은 한국 전자 통신 연구원 "중대형 공간용 초고해상도 비정형 플렌옵틱 동영상 저작/재생 플랫폼 기술 개발" 과제를 수행하고 있습니다. 현재 Panoptic Segmentation 분야에서 state-of-the-art 인 MaskDINO 모델을 이용해 Object Detection 및 Panoptic Segmentation을 결과를 추출하고 이를 바탕으로 다중 시점 (Multi-view) 영상에서 객체 간 일관성을 유지할 수 있도록 Instance Matching을 수행하는 연구를 하고 있습니다.