Research

Recent Issues

[1] Query-by-Example based Wake-up Word Detection

    Objectives
         -  Detect pre-defined wake-up word to activate speech-conversation system
       
    Research Scope
        Discriminative acoustic word embedding techniques for distinguishing wake-up word from others
        Robustness to noisy and distant environments
        Real-time processing techniques for a limited amount of computing resources



[2] Joint Learning for Voice Activity Detection

    Objectives

        - Identify segments of speech in audio utterance
        - Employ a joint learning of speech enhancement (SE) and voice activity detection (VAD) to improve the noise              robustness

    Research Scope
        - Batch normalization to reduce the internal covariate shift between the SE and VAD networks
        - Parameter updates of the SE network depending not only on the SE cost but also on the VAD cost
        - Denoising variational autoencoder (DVAE) for speech enhancement


[3] Deep Learning-based Acoustic Modeling with Feature Contribution Network

    Objectives

        - Find the contribution of each feature element through an auxiliary network called feature contribution network             (FCN)

        - Utilize the feature contribution for selecting useful feature elements

        - Improve acoustic model generalization by the limited feature information (Occam’s Razor)


    Research Scope

        - Expand the idea of FCN by considering attention-based techniques in feature dimension

        - Apply the FCN approach to power spectrogram before feature extraction for noise robust ASR







[4] Least Squares Regression for Deep Learning-based Acoustic Model Adaptation

    Objectives
        - Adaptation by the cross entropy criterion requires various heuristic conditions since it is optimized by stochastic                gradient descent
        - Develop a new criterion called least squares regression (LSR) optimized by a closed form solution for adaptation
        - Utilize a radial basis function-based output layer
        - Find speaker-dependent linear transforms that minimize the distance between transformed hidden outputs and                  class-dependent centroids

    Research Scope
        - Find a way of utilizing multi-class LSR (MCLSR) similar to multi-class maximum likelihood linear regression
        - Develop a grouping method that represents class-dependent centroids close to each other for the purpose of              MCLSR


[5] WFST-based ASR System

    Advantages of WFST
        - Efficient structures of speech/language components
        - Reduction of the search space
        - Increase of the search speed
        - Easy to change the language domain in online searching
 



[6] End-to-End Speech Recognition

    Objectives
        - Conventional ASR system : separate training of its components,  and expert knowledge such as pronunciation            dictionary
        - End-to-End ASR system : integrated model consisting of a single neural network as a whole

    Research Scope
        - Speaker / Domain adaptation methodology that is designed and specialized for E2E-ASR system
        - Semi-supervised learning framework of E2E-ASR system in case either voice or text information is incomplete




[7] Robust Speaker Diarization for Contents Retrieval

    Objectives
        - Employ user-specific speech interface technology in channel selection and contents retrieval
        - Develop a reliable speaker diarization technique and evaluate its effectiveness
        - Speaker Diarization
        - Speech segmentation according to the speaker identity
    Resarch Scope
        - Labeled speech database development for speaker diarization research
        - Reliable speech detection
        - GMM-based statistical modeling for speech segments
        - Agglomerative BIC clustering
        - Estimate number of speakers and their corresponding speech segments


[8] d-vector based Speaker Verification


    Objectives
        - Need to find a robust utterance level representation describing the distribution of the input data with variable-              length
        - The learned feature embedding need to be not only separable but also discriminative
 
    Research Scope
        - Employ the learnable residual encoding layer to aggregate the variable-length input sequence into an                          utterance level representation
        - Apply the angular softmax loss to get more discriminative speaker embedding



[9] DNN-based Speech Synthesis System


    Objectives
        - DNN-based speech synthesis techniques
        - Speech synthesis frameworks for conversational robots expressing emotion and personality

    Research Scope
        - Korean text analysis for speech synthesis
        - DNN/RNN-based duration & acoustic modeling
        - DNN-based waveform generation
        - End-to-end speech synthesis



[10] Deep Voice Conversion


    Objectives
        - It is a technique to modify speech to convert speaker identity while preserving linguistic information

    Research Scope
        - Non-parallel voice conversion: Voice conversion towards a specific target speaker when the source speaker’s DB              and the target speaker’s DB are of different speech contents
        - Fitting new speaker: Voice conversion towards the target speakers who are unseen during training time



[11] Acoustic Event Detection & Classification for Surveillance Applications

    Objectives
        -  Feature extraction technique for abnormal sound
        - Distance speech recognition in emergency situation

    Research Scope
        - Abnormal sound characteristics analysis
        - Speech/non-speech classification and Voice activity detection in surveillance environment
        - Abnormal sound classification
        - Robust speech recognition for distance voice source


  
 

Projects & Achievements

(57)  종단간 음성인식 시스템 성능 개선 연구 (2018년 3월 15일 ~ 2018년 11월 30일) (funded by IITP/ETRI)

(56)  LSTM 기반 기동어/화자 통합인식 알고리즘 개발 (2017년 10월 1일 ~ 2018년 7월 31일) (funded by LG전자)

(55)  개인화 및 다국어를 지원하는 HTS 방식 고품질 음성합성 기술 개발 (2017년 10월 1일 ~ 2020년 9월 30일) (funded by 한글과컴퓨터)

(54)  음원 다양화를 통하여 로봇의 감정 및 개성을 표현할 수 있는 대화음성합성 원천기술 개발 (2017년 7월 1일 ~ 2020년 12월 31일) (funded by KEIT)

(53)  딥 네트워크를 이용한 고성능 감성인식 및 표정기반 인증 실용화 기술 개발 (2017년 5월 1일 ~ 2018년 4월 30일) (funded by IITP)

(52)  로봇용 Free-running 임베디드 자연어 대화음성인식을 위한 원천 기술개발 (2017년 4월 1일 ~ 2018년 12월 31일) (funded by KEIT)

(51)  심층학습 기반 새로운 음향모델 단위 생성 연구 (2017년 3월 24일 ~ 2017년 11월 30일) (funded by IITP/ETRI)

(50)  딥러닝 기반 발음변이 다양성 분석 연구 (2016년 6월 1일 ~ 2016년 11월 30일) (funded by IITP/ETRI)

(49)  실내용 음성대화 로봇을 위한 원거리 음성인식 기술 및 멀티 태스크 대화처리 기술 개발 (2016년 5월 1일 ~ 2020년 4월 30일) (funded by KEIT)

(48)  순환신경망 언어모델용 동적 디코더 개발 (2016년 4월 18일 ~ 2016년 9월 30일) (funded by SKT)

(47)  로봇을 이용한 홈서비스 제공을 위한 지능 기술 개발 (2016년 3월 1일 ~ 2016년 12월 31일) (funded by KAIST)

(46)  Dynamic wFST 기술 개발 및 Big-size wFST 통합 모델 생성 방법 개발 (2014년 10월 20일 ~ 2015년 6월 19일) (funded by SKT)

(45)  모바일 환경에서 음성인식 서비스의 성능향상을 위한 음향모델 및 언어모델의 비교사 베이지안 상호학습 기법 연구 (2014년 5월 ~ 2017년 4월) (funded by NRF)

(44)  사용자 디지털 감성 DNA에 기반한 디지털 생명체 기술 개발 (2014년 4월 ~ 2017년 2월) (funded by IITP)

(43)  모바일 환경에서 음성을 이용한 감정/스트레스 측정 및 관리 기술 연구 (2014년 2월 ~ 2014년 12월) (funded by KAIST)

(42)  인간 모사형 자율인지학습 기반 음성언어 지능처리 기초 연구 (2013년 12월 ~ 2014년 6월) (funded by KAIST)

(41)  스마트 현장판단형 영상/음향 보안감시 SoC 및 핵심부품 개발 (2013년 11월 ~ 2014년 10월) (funded by KEIT)

(40)  Sparse model 기반 음성개선을 이용한 강인한 특징추출 연구 (2013년 6월 ~ 2014년 1월) (funded by KCC/ETRI)

(39)  WFST 기반 음성인식 기술개발 (2013년 5월 ~ 2013년 12월) (funded by SKT)

(38)  네트워크 방식의 음성인증 출입시스템 연구 (2012년 12월 ~ 2013년 10월) (funded by S1)

(37)  지식학습 및 다국어 확장 방법론 연구 (2012년 6월 ~ 2017년 2월) (funded by MSIP/IITP)

(36)  음성인식 성능향상을 위한 특징추출 기법 연구 (II) (2012년 5월 ~ 2013년 1월) (funded by KCC/ETRI)

(35)  FST 기반 음성인식 기술 조사 및 초기 모델 구축 (2012년 4월 ~ 2013년 2월) (funded by Voiceware)

(34)  특수음향 인식기술 개발 (2012년 4월 ~ 5월) (funded by 중소기업진흥공단)

(33)  u-로봇 화자인식 기술 개발 (IV) (2011년 8월 ~ 2012년 1월) (funded by MKE/ETRI)

(32)  음성인식 성능향상을 위한 특징추출 기법 연구 (2011년 7월 ~ 2012년 1월) (funded by KCC/ETRI)

(31)  장애인을 위한 IPTV 음성인터페이스 기술 평가 연구(2010년 12월 ~ 2011년 5월) (funded by KT)

(30)  발성 장애인을 위한 개인 맞춤형 내장형 명령어 인식기 개발 (발성 장애 음성 고속 적응 엔진 개발) (2010년 6월 ~ 2014년 5월) (funded by the MKE/KEIT)

(29)  환경 왜곡에 강인한 음성 신호 다중 인덱싱 기술 연구(2010년 5월 ~ 2013년 4월) (funded by the MEST/NRF)

(28)  u-로봇 화자인식 기술 개발 (Ⅲ) (2010년 6월 ~ 2011년 1월) (funded by ETRI)

(27)  유해 멀티미디어 분석을 위한 오디오 특징 분석 기술 연구(2009년 6월 ~ 2010년 1월) (funded by ETRI)

(26)  신성장동력산업용 대용량/대화형 분산처리 음성인터페이스 기술 개발(2006년 3월 ~ 2010년 2월) (funded by the MKE/KEIT)

(25)  화자적응 기반 발화검증 기술 연구(2008년 1월 ~ 2009년 2월) (funded by a company)

(24)  U-로봇 화자인식 기본 알고리즘 개발(2008년 9월 ~ 2009년 1월) (funded by ETRI)

(23)  정보검색을 위한 화자인식 기술 연구(2008년 5월 ~ 2008년 8월) (funded by a company)

(22)  지능형 서비스 로봇을 위한 화자인식 기술 개발(2007년 5월 ~ 2007년 12월) (funded by ETRI)

(21)  지능형 서비스 로봇을 위한 음원추적 및 화자인식 기술 개발(2006년 5월 ~ 2006년 12월) (funded by ETRI)

(20)  지능형 서비스로봇을 위한 음원 추적 및 주의집중(2005년 6월 ~ 2006년 1월) (funded by ETRI)

(19)  한국어 음성인식 플랫폼 개발 (2004년 5월 ~ 2006년 1월) (funded by SiTEC)

(18)  가정환경에서의 음성인식을 위한 음성전처리 연구 (2004년 4월 ~ 2004년 11월): ETRI 수탁과제로서 지능형 홈 로봇의 음성 인터페이스를 위한 강인한 음성전처리기 개발에 대하여 연구

(17)  전화망환경 음성인식을 위한 강인한 음성구간 검출 기법 개발 (2003년 3월 ~ 2003년 10월): ETRI 수탁과제로서 강인한 음성인식을 위한 Aurora front-end 및 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(16)  디지털 미디어 연구 (2002년 11월 ~ 2007년 2월): MIC 수탁과제로서 유비쿼터스 컴퓨팅 관련 연구로 화자인식, 감정인식, 원거리 음성인식 등과 관련된 지능형 음성 인터페이스 기술개발을 수행

(15)  유/무선 통신망 환경에서 연속숫자음 인식을 위한 잡음에 강인한 끝점검출 알고리즘 개발 (2002년 6월 ~ 2002년 10월): ETRI 수탁과제로서 한국어 연속숫자음을 위한 유용한 Mel-band 에너지를 이용한 잡음에 강인한 음성검출 기술을 개발

(14)  지능형 에이전트 및 메타데이터 관리기술 연구 (2002년 1월 ~ 2006년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 디지털방송연구단과 공동으로 지능형 TV 기술개발 사업의 일환으로 오디오 검색기술을 MPEG7 framework에서 개발

(13)  음성정보처리 기반기술 개발 (2001년 11월 ~ 2002년 10월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 ETRI 음성정보연구센터, ICU, 보이스웨어, SL2가 공동으로 연구하는 과제에 참여하여 음성기술 성능평가 방안 연구 및 연속숫자음 인식 기술 연구 등을 수행

(12)  연속음성인식 ASIC용 음성인식 알고리즘 개발 (2000년 3월~ 2002년 2월): ㈜PAXVR에서 지원하는 산업체 수탁연구로서 연속음성인식을 위한 고성능 ASIC 내에 구현될 음향모델, 핵심어 인식 알고리즘, 미등록어 제거 알고리즘 등을 개발하고, 이를 개선하여 PC 기반 멀티미디어 교육용 S/W에 적용하는 방법 연구를 수행

(11)   대화형 음성언어 인터페이스 S/W 개발 (2000년 2월~ 2002년 12월): 정보통신부가 지원하는 국책 선도기술개발 사업으로 한국통신 멀티미디어연구소, ICU, 전산원, 로커스, 삼보정보통신이 공동으로 연구하는 과제에 참여하여 음성포탈 시스템용 client S/W 부분 중 핵심어인식 기반 질의어 검출 S/W를 개발하였고, 3차년도에는 이 S/W의 소형화 및 성능 개선을 수행

(10)  저가형 멀티미디어 통신단말 핵심기술 개발 (1999년 ~ 2001년): 개발될 통신단말 chip내에서 동작하는 음성인식 S/W 개발. 구현되는 기능들로는 핵심어 검색, 미등록어 제거, 가변어휘 인식, 전화음성인식, 실시간 처리 등임. 담당한 부분은 음성인식 관련 전체 시스템 구조 설계 및 핵심부분 구현

(9)  PC 음성입출력 S/W 개발 (1997년 ~ 1998년): MS사의 SAPI규격을 따르는 범용 음성인식 라이브러리, 화자적응 기능 포함, 한국식 영어단어 인식 처리 가능, 미등록어 제거 기능 구현, 학습형 음성합성 라이브러리 구현, OLE-COM 환경에서 개발, 한국 PC통신에 기술이전을 하여 윈도우 기반 HITEL에 구현되어 상용화 됨.

(8)  PC 음성명령 게임 개발 (1997년): Hicom사의 Corum 게임에 음성명령 기능을 구현, 게임에 음성인식 기능 구현을 국내 최초로 개발

(7)  음성명령 웹 브라우저 세계 최초 개발 (1997년): 가변어휘 음성인식 기술을 활용하여 Netscape Navigator에서의 메뉴 제어 및 링크 제어를 음성으로 수행, 국제 학술대회에서 큰 호응을 얻음

(6)  대화체 음성언어 번역 시스템 개발 (1995년 ~ 1998년): 미국, 일본, 독일 등과 공동으로 C-STAR 컨소시움을 결성하고, 국제 공동연구 활동을 통해 세계 최초의 대화음성 인식, 번역, 합성 등에 대한 연구 수행

(5)  한국어 음성 DB의 체계적 구축 및 국내 보급 선도 (1996년 ~ 1998년): 음성인식 연구에 필수적인 연구 기반을 구축하기 위하여 다양하고 대용량인 음성인식 DB를 구축하고 이를 학계, 기업체 연구소 등에 지속적으로 배포

(4)  PC 윈도우 환경에서 동작하는 가변어휘 음성인식기 국내 최초 개발 (1996년): PC에서의 한국어 음성인식 개발 선도, 중소기업체에 기술 이전

(3)  일본 ATR 음성번역 통신 연구소에 파견가서 음성인식 분야 중 음향 모델링(HMnet 이용) 분석 연구 수행 (1994년 6월 ~ 1995년 5월)

(2)  한/일 자동통역 시스템 개발 (1992년 ~ 1994년 5월): 호텔예약 도메인에서의 연속음성인식, 번역, 음성합성 등을 수행하는 시스템을 SUN 워크스테이션에서 구현, 이 시스템 중 음성인식 S/W 개발 수행, Semi-continuous HMM 및 FSN 적용, 한국통신 및 일본 KDD연구소와 공동연구 수행, ETRI의 전시실에 설치

(1)  KAIST 석/박사 학위과정 중의 연구개발 (1986년 ~ 1990년): 한국통신 과제로 한국어 음성인식 시스템 개발 연구를 4년간 수행, 삼익악기 과제로 전자 음악 합성기(전자 피아노) 개발 중 DMA H/W module 개발, PC에서의 멀티 태스킹 멀티 채널 ARS(Automatic Response System) H/W board 및 관련 S/W를 개발하여 국내 최초로 PC 기반 ARS 시스템 상용화, 여러가지 음성코딩 알고리즘을 통합한 S/W 기반 실시간 코딩/디코딩 S/W 개발(PCM, ADPCM, ADM, RELP, LPC10)