1. CT 또는 MRI를 사용한 의료 영상 분할
과제: 폐 결절(암) 분할
데이터:
LIDC-LDRI (Lung Image Database Consortium and Image Database Resource Initiative, CT 스캔에서 폐 결절의 참조 데이터베이스)
BraTS (Brain Tumor Segmentation)
링크:
의료 영상 분할은 CT, MRI, PET, 초음파와 같은 다양한 영상 모달리티에서 얻은 이미지를 의미 있는 영역이나 구조로 분할하는 과정입니다. 이는 진단, 치료 계획 수립, 그리고 정량적 분석에서 중요한 역할을 하며, 장기, 병변, 또는 관심 영역을 분리하여 추가 연구를 가능하게 합니다.
모달리티와 외형의 다양성: 서로 다른 영상 기술은 다양한 대비 수준, 노이즈 특성, 그리고 아티팩트를 생성합니다.
모호한 경계: 부분 체적 효과(partial volume effect)로 인해 병변과 장기의 경계가 모호하거나 겹치는 경우가 많습니다.
이질성: 환자 내 및 환자 간 변동성은 광범위한 사례에 걸쳐 잘 일반화되는 견고한 알고리즘을 요구합니다.
U-Net 및 완전 합성곱 신경망(FCN)과 같은 합성곱 신경망(CNN)은 데이터를 직접 학습하여 계층적 표현을 통해 엔드투엔드(end-to-end) 분할을 수행합니다.
최근 발전으로는 세부 사항과 맥락 정보를 개선하기 위해 주의 메커니즘(attention mechanisms)과 트랜스포머 기반 모듈을 통합한 접근법이 있습니다.
분할 정확도는 일반적으로 Dice 유사도 계수(DSC), 교차합집합(IoU), 민감도(sensitivity), 특이도(specificity), 그리고 Hausdorff 거리와 같은 경계 기반 지표를 사용하여 측정됩니다.
미래 연구는 이질적인 데이터셋에서 모델의 견고성을 강화하고, 개인화된 의료를 지원하기 위해 다중 모달리티 영상 데이터를 통합하는 데 초점을 맞추고 있습니다.
2. 언어 기반 오디오 검색
과제: 주어진 텍스트 쿼리를 기반으로 오디오 파일을 검색하는 것
데이터: Clotho 데이터셋
챌린지: 음향 장면 및 이벤트의 탐지와 분류 (DCASE, Detection and Classification of Acoustic Scenes and Events)
링크:
배경 및 중요성
언어 기반 오디오 검색은 자연어 쿼리를 사용하여 대규모 멀티미디어 데이터베이스에서 관련 오디오 콘텐츠(예: 연설, 팟캐스트, 음악)를 검색하고 추출하는 과정입니다. 이 크로스모달 검색 작업은 멀티미디어 검색 엔진을 강화하여 사용자가 설명적인 언어 입력을 통해 특정 오디오 세그먼트를 접근할 수 있도록 하는 데 필수적입니다.
주요 과제
데이터의 이질성: 오디오 녹음은 품질, 언어, 억양, 배경 소음, 녹음 조건 등이 다양하여 일관된 의미적 단서를 추출하기 어렵습니다.
의미적 격차: 저수준 오디오 특징(예: 스펙트로그램 또는 MFCC)과 고수준 텍스트 의미 간의 격차를 연결하는 것이 근본적인 과제입니다.
시간적 동역학: 오디오는 본질적으로 시간 의존적이며, 동적인 오디오 스트림을 정적 또는 시간적으로 변화하는 텍스트 쿼리와 정렬하는 것은 복잡합니다.
딥러닝 기술
현대적인 방법은 엔드투엔드 딥러닝 모델을 사용하여 오디오와 텍스트 데이터를 공유 잠재 공간에 임베딩하여 보다 효과적인 크로스모달 검색을 가능하게 합니다.
아키텍처는 종종 합성곱 또는 순환 신경망을 사용하며, 점점 더 트랜스포머 모델을 통합하여 오디오의 스펙트럼 및 시간적 특징과 텍스트의 의미를 포착합니다.
평가 지표 및 미래 방향
검색 성능은 일반적으로 평균 정밀도(mAP), 재현율(recall), 랭킹 점수와 같은 지표를 사용하여 평가됩니다.
미래 연구는 멀티모달 표현 학습을 개선하고, 노이즈가 많거나 저자원 오디오 데이터를 더 잘 처리하며, 보지 못한 쿼리나 언어에 일반화할 수 있는 제로샷 검색 능력을 개발하는 데 초점을 맞추고 있습니다.
3. 시각적 객체 추적
배경 및 중요성
시각적 객체 추적은 비디오 프레임 전반에 걸쳐 목표 객체의 위치를 지속적으로 추적하는 기술로, 객체의 외형과 움직임 정보를 바탕으로 이루어집니다.
이 기술은 감시 시스템, 자율주행, 로보틱스, 인간-컴퓨터 상호작용 등에서 핵심 역할을 하며, 역동적인 환경에서 객체를 모니터링하는 데 필수적입니다.
주요 과제
가림 및 변형 (Occlusion & Deformation): 객체가 부분적으로 또는 완전히 가려지거나, 관절 운동이나 변형으로 인해 형태가 변할 수 있습니다.
외형 변화 (Appearance Changes): 조명, 크기, 회전, 배경의 복잡성 등으로 인해 시간에 따라 객체의 시각적 외형이 크게 달라질 수 있습니다.
실시간 처리 (Real-Time Processing): 높은 정확도를 유지하면서도 실시간 속도를 달성하는 것이 실제 응용에 매우 중요합니다.
딥러닝 기술
최근에는 합성곱 신경망(CNN)을 활용해 견고한 특징 표현을 학습하고, 객체 외형의 변화를 효과적으로 포착하는 방식이 발전하고 있습니다.
또한, 시암 신경망(Siamese Network) 구조는 목표 객체와 후보 영역 간의 유사도를 비교하며, 순환 신경망(Recurrent Models)은 시간적인 동적 특성을 포착하는 데 도움을 줍니다.
평가 지표 및 미래 방향
일반적으로 사용되는 평가지표로는 정밀도 플롯(precision plots), 성공률(success rate, 겹침 비율 기반), 초당 프레임 수(FPS) 등이 있으며, 이는 정확도와 실시간 성능을 함께 평가합니다.
향후 연구 방향은 다음과 같습니다:
가림과 빠른 외형 변화에 대한 강인성 향상
크기 및 회전 추정 능력 향상
연산 자원을 최소화하면서 실시간 성능을 유지할 수 있는 모델 최적화
4. 자동 오디오 캡셔닝
배경 및 중요성
자동 오디오 캡셔닝은 오디오 클립(예: 소리, 사건, 배경음 등)에 대해 자연어로 설명을 자동 생성하는 기술로, 사람의 개입 없이 수행됩니다.
이 기술은 다음과 같은 분야에서 활용도가 높습니다:
멀티미디어 검색 기능 향상
접근성 향상 (예: 시각장애인을 위한 정보 제공)
스마트 환경 및 디지털 미디어 아카이브에서의 콘텐츠 분석 지원
주요 과제
시맨틱 갭(Semantic Gap): 스펙트로그램, MFCC 등 저수준 음향 특징과 고수준 의미(언어적 설명) 사이의 간극을 연결하는 것은 여전히 복잡한 과제입니다.
다양성과 모호성(Variability and Ambiguity): 다양한 유형의 오디오, 배경 소음, 중첩된 소리 이벤트 등이 특징 추출과 일관된 설명 생성을 어렵게 만듭니다.
시간적 특성(Temporal Dynamics): 오디오는 본질적으로 시간에 따라 변하는 특성을 가지므로, 이러한 동적인 소리 이벤트를 일관성 있고 시간 순서에 맞는 문장으로 정렬하는 것이 어렵습니다.
딥러닝 기술
최신 접근법은 인코더-디코더 구조를 사용하여, CNN 또는 RNN을 통해 스펙트로그램 등에서 파생된 오디오 표현을 직접 텍스트 설명으로 매핑합니다.
또한, 어텐션 메커니즘과 트랜스포머 기반 모델을 적용해, 오디오 이벤트와 생성된 단어 간의 정렬을 개선하고, 장기 의존성을 포착하는 데 효과적으로 활용되고 있습니다.
평가 지표 및 미래 방향
BLEU, METEOR, CIDEr, ROUGE 등 머신번역 및 이미지 캡셔닝에서 사용되는 지표를 활용하여, 검색 성능과 문장 품질을 평가합니다.
향후 연구 방향은 다음과 같습니다:
멀티모달 융합 기술의 개선
언어의 일관성과 맥락 인지 능력 향상
다양한 오디오 도메인에 잘 일반화되는 모델 개발
5. 언어 질의 기반 오디오 소스 분리
배경 및 중요성
이 과업은 “기타를 추출해줘”, “사람 말소리를 분리해줘”와 같은 자연어 질의에 기반하여, 혼합된 오디오 신호에서 특정 소스를 분리하는 작업입니다.
이 기술은 오디오 신호 처리와 언어 이해를 결합함으로써, 사용자 주도의 콘텐츠 조작 및 멀티미디어 환경에서의 접근성 향상을 가능하게 합니다.
주요 과제
크로스모달 간극 (Cross-Modal Gap): 저수준의 음향 신호와 고수준의 텍스트 의미를 정렬하기 위해, 오디오와 언어 모달리티 간의 호환 가능한 표현 학습이 필요합니다.
모호한 질의 (Ambiguous Queries): 자연어 입력은 표현 방식이 다양하고 모호할 수 있어, 사용자의 의도를 정확히 이해하기 어렵습니다.
중첩 소스 및 노이즈 (Overlapping Sources & Noise): 혼합된 오디오는 종종 방해 신호나 배경 소음을 포함하기 때문에, 정확한 대상 소스 분리가 어려운 경우가 많습니다.
딥러닝 기술
최신 방법들은 오디오와 언어를 함께 처리하는 end-to-end 딥러닝 아키텍처를 활용합니다:
오디오는 스펙트로그램 기반 CNN 또는 RNN 등을 통해 임베딩하고,
언어 질의는 트랜스포머나 RNN 기반 인코더로 처리하여,
공유 잠재 공간(shared latent space)에 함께 매핑됩니다.
이러한 표현들은 보통 어텐션 메커니즘이나 조건부 층(conditional layer)을 통해 융합되며,
이를 기반으로 질의된 소스를 추출하는 시간-주파수 마스크(time–frequency mask)를 생성합니다.
최근 모델들은 질의와 오디오 특징 간의 정렬을 더욱 정밀하게 하여, 분리 품질(SI-SDR 등) 및 질의 연관성을 향상시키고자 합니다.
평가 지표 및 미래 방향
평가지표(Metrics):
신호 분리 품질: SDR(Signal-to-Distortion Ratio), SI-SDR(Scale-Invariant SDR), PESQ(Perceptual Evaluation of Speech Quality) 등
질의 적합성 평가도 함께 수행됩니다.
향후 연구 방향(Future Work):
더 강력한 크로스모달 표현 학습
모호하고 다양한 자연어 질의에 대한 대응력 향상
실시간 처리 성능 강화
비디오 등 추가 모달리티와의 통합을 통한 복잡한 실제 환경 대응력 강화
6. Unsupervised anomalous sound detection for machine condition monitoring
7. Speech signal-based depression diagnosis using deep learning
8. Toxicity prediction for chemicals based on molecular structure
9. Time series forecasting