Research

 

Projects & Achievements

(45)  모바일 환경에서 음성인식 서비스의 성능향상을 위한 음향모델 및 언어모델의 비교사 베이지안 상호학습 기법 연구 (2014년 5월 ~ 2017년 4월) (funded by NRF)

(44)  사용자 디지털 감성 DNA에 기반한 디지털 생명체 기술 개발 (2014년 4월 ~ 2017년 2월) (funded by IITP)

(43)  모바일 환경에서 음성을 이용한 감정/스트레스 측정 및 관리 기술 연구 (2014년 2월 ~ 2014년 12월) (funded by KAIST)

(42)  인간 모사형 자율인지학습 기반 음성언어 지능처리 기초 연구 (2013년 12월 ~ 2014년 6월) (funded by KAIST)

(41)  스마트 현장판단형 영상/음향 보안감시 SoC 및 핵심부품 개발 (2013년 11월 ~ 2014년 10월) (funded by KEIT)

(40)  Sparse model 기반 음성개선을 이용한 강인한 특징추출 연구 (2013년 6월 ~ 2014년 1월) (funded by KCC/ETRI)

(39)  WFST 기반 음성인식 기술개발 (2013년 5월 ~ 2013년 12월) (funded by SKT)

(38)  네트워크 방식의 음성인증 출입시스템 연구 (2012년 12월 ~ 2013년 10월) (funded by S1)

(37)  지식학습 및 다국어 확장 방법론 연구 (2012년 6월 ~ 2017년 2월) (funded by MSIP/IITP)

(36)  음성인식 성능향상을 위한 특징추출 기법 연구 (II) (2012년 5월 ~ 2013년 1월) (funded by KCC/ETRI)

(35)  FST 기반 음성인식 기술 조사 및 초기 모델 구축 (2012년 4월 ~ 2013년 2월) (funded by Voiceware)

(34)  특수음향 인식기술 개발 (2012년 4월 ~ 5월) (funded by 중소기업진흥공단)

(33)  u-로봇 화자인식 기술 개발 (IV) (2011년 8월 ~ 2012년 1월) (funded by MKE/ETRI)

(32)  음성인식 성능향상을 위한 특징추출 기법 연구 (2011년 7월 ~ 2012년 1월) (funded by KCC/ETRI)

(31)  장애인을 위한 IPTV 음성인터페이스 기술 평가 연구(2010년 12월 ~ 2011년 5월) (funded by KT)

(30)  발성 장애인을 위한 개인 맞춤형 내장형 명령어 인식기 개발 (발성 장애 음성 고속 적응 엔진 개발) (2010년 6월 ~ 2014년 5월) (funded by the MKE/KEIT)

(29)  환경 왜곡에 강인한 음성 신호 다중 인덱싱 기술 연구(2010년 5월 ~ 2013년 4월) (funded by the MEST/NRF)

(28)  u-로봇 화자인식 기술 개발 (Ⅲ) (2010년 6월 ~ 2011년 1월) (funded by ETRI)

(27)  유해 멀티미디어 분석을 위한 오디오 특징 분석 기술 연구(2009년 6월 ~ 2010년 1월) (funded by ETRI)

(26)  신성장동력산업용 대용량/대화형 분산처리 음성인터페이스 기술 개발(2006년 3월 ~ 2010년 2월) (funded by the MKE/KEIT)

(25)  화자적응 기반 발화검증 기술 연구(2008년 1월 ~ 2009년 2월) (funded by a company)

(24)  U-로봇 화자인식 기본 알고리즘 개발(2008년 9월 ~ 2009년 1월) (funded by ETRI)

(23)  정보검색을 위한 화자인식 기술 연구(2008년 5월 ~ 2008년 8월) (funded by a company)

(22)  지능형 서비스 로봇을 위한 화자인식 기술 개발(2007년 5월 ~ 2007년 12월) (funded by ETRI)

(21)  지능형 서비스 로봇을 위한 음원추적 및 화자인식 기술 개발(2006년 5월 ~ 2006년 12월) (funded by ETRI)

(20)  지능형 서비스로봇을 위한 음원 추적 및 주의집중(2005년 6월 ~ 2006년 1월) (funded by ETRI)

(19)  한국어 음성인식 플랫폼 개발 (2004년 5월 ~ 2006년 1월) (funded by SiTEC)

(18)  가정환경에서의 음성인식을 위한 음성전처리 연구 (2004년 4월 ~ 2004년 11월): ETRI 수탁과제로서 지능형 홈 로봇의 음성 인터페이스를 위한 강인한 음성전처리기 개발에 대하여 연구

(17)  전화망환경 음성인식을 위한 강인한 음성구간 검출 기법 개발 (2003년 3월 ~ 2003년 10월): ETRI 수탁과제로서 강인한 음성인식을 위한 Aurora front-end 및 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(16)  디지털 미디어 연구 (2002년 11월 ~ 2007년 2월): MIC 수탁과제로서 유비쿼터스 컴퓨팅 관련 연구로 화자인식, 감정인식, 원거리 음성인식 등과 관련된 지능형 음성 인터페이스 기술개발을 수행

(15)  유/무선 통신망 환경에서 연속숫자음 인식을 위한 잡음에 강인한 끝점검출 알고리즘 개발 (2002년 6월 ~ 2002년 10월): ETRI 수탁과제로서 한국어 연속숫자음을 위한 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(14)  지능형 에이전트 및 메타데이터 관리기술 연구 (2002년 1월 ~ 2006년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 디지털방송연구단과 공동으로 지능형 TV 기술개발 사업의 일환으로 오디오 검색기술을 MPEG7 framework에서 개발

(13)  음성정보처리 기반기술 개발 (2001년 11월 ~ 2002년 10월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 음성정보연구센터, ICU, 보이스웨어, SL2가 공동으로 연구하는 과제에 참여하여 음성기술 성능평가 방안 연구 및 연속숫자음 인식 기술 연구 등을 수행

(12)  연속음성인식 ASIC용 음성인식 알고리즘 개발 (2000년 3월~ 2002년 2월): ㈜PAXVR에서 지원하는 산업체 수탁연구로서 연속음성인식을 위한 고성능 ASIC 내에 구현될 음향모델, 핵심어 인식 알고리즘, 미등록어 제거 알고리즘 등을 개발하고, 이를 개선하여 PC 기반 멀티미디어 교육용 S/W에 적용하는 방법 연구를 수행

(11)   대화형 음성언어 인터페이스 S/W 개발 (2000년 2월~ 2002년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 한국통신 멀티미디어연구소, ICU, 전산원, 로커스, 삼보정보통신이 공동으로 연구하는 과제에 참여하여 음성포탈 시스템용 client S/W 부분 중 핵심어인식 기반 질의어 검출 S/W를 개발하였고, 3차년도에는 이 S/W의 소형화 및 성능 개선을 수행

(10)  저가형 멀티미디어 통신단말 핵심기술 개발 (1999년 ~ 2001년): 개발될 통신단말 chip내에서 동작하는 음성인식 S/W 개발. 구현되는 기능들로는 핵심어 검색, 미등록어 제거, 가변어휘 인식, 전화음성인식, 실시간 처리 등임. 담당한 부분은 음성인식 관련 전체 시스템 구조 설계 및 핵심부분 구현

(9)  PC 음성입출력 S/W 개발 (1997년 ~ 1998년): MS사의 SAPI규격을 따르는 범용 음성인식 라이브러리, 화자적응 기능 포함, 한국식 영어단어 인식 처리 가능, 미등록어 제거 기능 구현, 학습형 음성합성 라이브러리 구현, OLE-COM 환경에서 개발, 한국 PC통신에 기술이전을 하여 윈도우 기반 HITEL에 구현되어 상용화 됨.

(8)  PC 음성명령 게임 개발 (1997년): Hicom사의 Corum 게임에 음성명령 기능을 구현, 게임에 음성인식 기능 구현을 국내 최초로 개발

(7)  음성명령 웹 브라우저 세계 최초 개발 (1997년): 가변어휘 음성인식 기술을 활용하여 Netscape Navigator에서의 메뉴 제어 및 링크 제어를 음성으로 수행, 국제 학술대회에서 큰 호응을 얻음

(6)  대화체 음성언어 번역 시스템 개발 (1995년 ~ 1998년): 미국, 일본, 독일 등과 공동으로 C-STAR 컨소시움을 결성하고, 국제 공동연구 활동을 통해 세계 최초의 대화음성 인식, 번역, 합성 등에 대한 연구 수행

(5)  한국어 음성 DB의 체계적 구축 및 국내 보급 선도 (1996년 ~ 1998년): 음성인식 연구에 필수적인 연구 기반을 구축하기 위하여 다양하고 대용량인 음성인식 DB를 구축하고 이를 학계, 기업체 연구소 등에 지속적으로 배포

(4)  PC 윈도우 환경에서 동작하는 가변어휘 음성인식기 국내 최초 개발 (1996년): PC에서의 한국어 음성인식 개발 선도, 중소기업체에 기술 이전

(3)  일본 ATR 음성번역 통신 연구소에 파견가서 음성인식 분야 중 음향 모델링(HMnet 이용) 분석 연구 수행 (1994년 6월 ~ 1995년 5월)

(2)  한/일 자동통역 시스템 개발 (1992년 ~ 1994년 5월): 호텔예약 도메인에서의 연속음성인식, 번역, 음성합성 등을 수행하는 시스템을 SUN 워크스테이션에서 구현, 이 시스템 중 음성인식 S/W 개발 수행, Semi-continuous HMM 및 FSN 적용, 한국통신 및 일본 KDD연구소와 공동연구 수행, ETRI의 전시실에 설치

(1)  KAIST 석/박사 학위과정 중의 연구개발 (1986년 ~ 1990년): 한국통신 과제로 한국어 음성인식 시스템 개발 연구를 4년간 수행, 삼익악기 과제로 전자 음악 합성기(전자 피아노) 개발 중 DMA H/W module 개발, PC에서의 멀티 태스킹 멀티 채널 ARS(Automatic Response System) H/W board 및 관련 S/W를 개발하여 국내 최초로 PC 기반 ARS 시스템 상용화, 여러가지 음성코딩 알고리즘을 통합한 S/W 기반 실시간 코딩/디코딩 S/W 개발(PCM, ADPCM, ADM, RELP, LPC10)

Recent Issues

SGMM-based Acoustic Modeling in ASR

Conventional GMM-HMM
- Widely used technique in acoustic modeling for speech recognition
- Need plentiful training database on the interested domain
Subspace GMM
- GMM mean vectors and weights are constrained in an affine subspace
- Global parameters define an affine subspace of GMM parameters
- State vectors are the coordinates in this subspace
- These compact representations result in much more robust estimation
 (Especially effective when the amount of training data of interested domain is limited)
 
Subspace Concept

Unsupervised Incremental Learning for Acoustic Model in ASR

Objectives
- Utilize massive unlabeled speech log data for acoustic model training
- Refine the initial acoustic model which was trained by supervised learning
- Constitute the refinement system with unsupervised incremental learning algorithms
Research Scope
- Unsupervised and incremental learning-based acoustic model training
- Confidence measure to check reliability of recognized results
- Continuous refinement of the acoustic model
 
System Block Diagram

WFST-based ASR System

Advantages of WFST
- Efficient structures of speech/language components
- Reduction of the search space
- Increase of the search speed
- Easy to change the language domain in online searching
 
System Architecture

SW Platform for Speech & Speaker Recognition

Objectives
- Common platform for speech/speaker recognizer development
- Relaxing entry-barriers for new researchers/developers of industry/university/institute
- Tools for performance comparison of new algorisms
- Example: HTK (UK), Julius (Japan), …
Project: Development of Speech Recognition Platform
Korean Continuous Speech Recognition Platform for Education and Research (2004.4.1 - 2006.1.31)


Fast Adaptation to Dysarthric Speech

Objectives
- Develop a keyword spotting speech recognition system individually customized for disabled persons with dysarthria
- Develop a fast and efficient speech/speaker adaptation technique for real-time processing
- Employ the speech modeling and speaker adaptation according to their speech intelligibility
 
Recent scope
- Dysarthric speech characteristics analysis and investigation
- Statistical model based dysarthric speech intelligibility assessment
- Mild/severe dysarthric speech classification
- Speech/speaker adaptation from normal speech to dysarthric speech according to degrees of dysarthric speech
- Fast speech/speaker adaptation for real-time processing
- Individually customized keywords/instructions design
 
System Architecture
 


Acoustic Event Detection & Classification for Surveillance Applications

Objectives
- Feature extraction technique for abnormal sound
- Distance speech recognition in emergency situation
Research Scope
- Abnormal sound characteristics analysis
- Speech/non-speech classification and Voice activity detection in surveillance environment
- Abnormal sound classification
- Robust speech recognition for distance voice source
 
System Architecture

Multiple Speech Signal Indexing Robust to Environmental Distortion

Objectives
- Develope a speech-based audio contents multiple indexing technology
- Efficiently retrieve the speech-based audio data distributed over the internet or intranet
- Employ the query-by-text approach based on speech and audio signal processing techniques
Research Scope
- Voice activity detection technique for audio contents
- Speech/nonspeech classification
- Adverse noise and channel compensation
- Lattice-based continuous speech multiple indexing
- N-gram probabilistic model-based literal term matching techinique
- Speech-based audio indexing and retrieval demo system
 
Conceptual Service Diagram
 
System Architecture Diagram
 

Robust Speaker Diarization for Contents Retrieval

Objectives
- Employ user-specific speech interface technology in channel selection and contents retrieval
- Develop a reliable speaker diarization technique and evaluate its effectiveness
Speaker Diarization
- Speech segmentation according to the speaker identity
Research Scope
- Labeled speech database development for speaker diarization research
- Reliable speech detection
- GMM-based statistical modeling for speech segments
- Agglomerative BIC clustering
- Estimate number of speakers and their corresponding speech segments
 
System Architecture Diagram