어릴 때부터 음악과 소리에 관심이 많았고, 소리를 정보로 바라보는 관점이 자연스럽게 Audio AI 분야로 이어졌습니다. 석사 과정에서는 음악·음성 신호 처리를 중심으로 연구 경험을 쌓았고(@MALer Lab), 이후에는 STT, KWS, Anomaly Detection 등 다양한 Audio AI 모델을 직접 설계하고 개선하는 실무 경험을 쌓아왔습니다.
💡 Research Interests: Music Generation, Speech/Vocal/Music Synthesis, Music/Speech Transcription, Voice Conversion
✉️ nueyet@naver.com
오디오 신호 기반의 인식·분류·이상 탐지 모델을 설계하고 최적화하는 업무를 맡았습니다. 이를 통해 데이터를 직접 수집하고 전처리, 모델링, 배포까지 다양한 엔지니어링 경험을 쌓았습니다.
🔧 산업용 모터 작동음 기반 이상음 탐지 모델 개발 (2025.07-2025.10)
[프로젝트 목표]
산업용 모터의 작동음으로 정상/이상을 안정적으로 구분하는 오디오 기반 anomaly detection 모델 개발
[진행 사항]
마이크 선정,녹음,라벨링 등 데이터 수집 및 구축 전 과정 주도
초기 이미지 기반 AD 모델(최근 연구 포함)을 분석·구현하며 한계를 검증
오디오 기반 AD 연구가 부족한 상황에서 이미지·오디오 기반 다양한 접근을 직접 구현·실험하며, 실제 데이터에 적합한 모델 구조를 도출
F1-score 0.98 달성, 이미지 기반 접근 대비 성능·안정성 모두 크게 향상
현장 환경에서도 안정적으로 동작하는 모델로 완성하여 현장 적용
🔧 공정 체결음 실시간 분류 모델 개발 (2025.03–2025.06)
[프로젝트 목표]
공정 과정의 체결음(Click Sound)을 실시간으로 분석해 이상 여부를 판단하는 Sound Classification 모델 개발
[진행 사항]
마이크 선정·녹음 환경 구성 등 데이터 수집 전 과정 주도
체결음 특성상 소리만으로 라벨링이 불가능함을 발견 -> 개발/비즈니스팀과 협의해, 동영상/오디오 기반 strong-label 라벨링 프로세스 기획 및 구축(label-studio 활용)
실시간 분류를 고려한 windowing 기반 전처리 파이프라인을 설계하여 데이터셋 구성
SED 기반 다양한 모델 구조 실험(CNN/CRNN/AST 계열), 체결음 데이터의 특성에 가장 적합한 입력 구조, 윈도우, 하이퍼파라미터 조합을 탐색 및 최적화
Miss/오탐 감소를 위한 후처리 로직 설계 (thresholding)
F1-score 0.986 달성, 초기 모델 대비 오탐/미탐 크게 감소
노이즈·환경 변동이 있는 실제 공정 환경에서도 안정적으로 동작하는 수준으로 모델을 현장 적용
🗣️ Keyword Spotting Model 개발 (2024.11-2025.02)
[프로젝트 목표]
현장 환경에서 False Alarm 없이 호출어를 안정적으로 인식할 수 있는 경량 Keyword Spotting 모델 개발 및 성능 개선
[진행 사항]
사내 기존 모델의 구조적 한계를 분석하여 KWS 파이프라인 전체 재설계
공개 데이터셋 기반으로 필요한 키워드만 선별해 데이터셋 재구성 및 정제
관련 KWS 논분 및 구조를 분석해 현 환경에 적합한 모델 구조 설계
오디오 증강 기법 적용을 통한 데이터 다양성 확보
기존 대비 Precision +64%, F1-score +57%, False Alarm 95% 감소
경량 구조 기반 실제 서비스 환경에 적용되어 안정적으로 운영 중 (관련 기사)
서강대학교 MaLer Lab
2022.07 ~ 2023.02
MIR (Music Information Retrieval) 분야 학습 및 오디오 ML 기초 학습
2014.11 ~
IT 및 오디오 장비 관련 칼럼 작성, KITAS 및 Sherazade 서포터즈 프로그램 활동.
인공지능학과 DHE 트랙
2023.03 ~ 2025.02
GPA 4.26 / 4.3
[연구 분야]
MIR (Music Information Retrieval)
Audio Generation
Lyric Transcription / Voice Conversion
[연구 활동 및 성과]
석사 졸업논문: ViolinDiff (ICASSP 2025, 1저자)
폴리포닉 환경에서 F0 조건을 직접 활용할 수 있는 Diffusion 기반 바이올린 합성 모델 제안
Whisper 기반 한국 민요 정렬 (DLfM 2023, 2저자)
Whisper 구조 변경 및 학습 코드 구현
TTS를 활용한 데이터 구축 및 테스트셋 레이블링
MIR·Audio ML 관련 세미나/논문 reading 및 재현 실험 다수 수행
[Teaching / Academic Experience]
TA for CSE3081: Algorithm Design and Analysis (Spring 2023)
TA for AIEG106: Introduction to Natural Language Processing (Fall 2023)
ICT융합학부
2017.03 ~ 2023.02
GPA 4.01 / 4.5 (Summa Cum Laude)
[Teaching / Academic Experience]
TA for MCT2005: Music Technology (Spring 2021)
ViolinDiff: Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning [D. Kim, H. Dong, D.Jeong] [ICASSP 2025.]
Aligning Incomplete Lyrics of Korean Folk Song Dataset using Whisper] [D. Han, D. Kim, D. Jeong] [DLfM 2023.]
Understanding era gap between US and Korean music charts using music CNN [D. Lee, M. Lee, H.Lee, D.Kim, D.Jeong] [submitted to ISMIR 2024.]
ViolinDiff Poster Presentation Korea Society for Music Informatics (KSMI), 2025
Aligning Incomplete Lyrics of Korean Folk Song Dataset using Whisper Poster Presentation, Music and Audio Workshop, 2023
📚 Projects