CONTACT US

아주대학교 인공지능학과 음성 인공지능 연구실에서는 음성 합성 (Text-to-Speech, Voice Conversion), 음성 언어 모델 (Speech Codec, Language Model, Speech-to-Speech Translation)에 관심있는 석.박사 대학원 신입생을 모집합니다. 관심있는 지원자는 sanghoonlee@ajou.ac.kr로 자기소개서 및 CV 제출 바랍니다. (Python 및 딥러닝 관련 경험 필수)

모집 분야

a. 음성 합성

b. 음성 언어 모델

c. 음성 인식

d. 멀티모달 생성 모델

e. VLAS (Vision Language Action with Speech)

지원 사항

a. 전일제 재학생 등록금 전액 지원

b. 인공지능 우수학술대회 (NeurIPS, ICLR, ICML, ICASSP, Interspeech 등) 학술대회 발표 지원 및 인센티브 지급

아래는 기초~최신 논문 리스트입니다. 지원 전, 기초 논문 (1,7,10)을 먼저 읽으시는 것을 추천드립니다. 이외 논문은 NeurIPS, ICLR, ICML, ICASSP, Interspeech, TASLP 논문들을 우선으로 참고해서 읽는 것을 추천드립니다.
Text-to-Speech (TTS)

기초 AR 모델: Tacotron, Tacotron 2, Prosody Trasnfer, GST, Transformer TTS
Parallel Model: FastSpeech 1/2, Glow-TTS, VITS, NaturalSpeech, HierSpeech/HierSpeech++
Diffusion: Grad-TTS, NaturalSpeech2,3, Simple-TTS
CFM: P-Flow, VoiceBox, E2-TTS, F5-TTS, A2-Flow, ZipVoice
Language Model: VALL-E, Mega-TTS2/3, UniAudio, Seed-TTS, CosyVoice 2/3
Diffusion LLM: LatentLM (VibeVoice)

Voice Conversion (VC)

기초: AutoVC
SSL 기반: Speech Resynthesis, NANSY/NANSY++, HierVST/HierSpeech++
Diffusion: DiffVC, Diff-HierVC, DDDM-VC

Neural Vocoder

기초: WaveNet
GAN 기반 Parallel 모델: Parallel WaveGAN, MelGAN, HiFi-GAN, BigVGAN, Vocos
Diffusion 기반 모델: DiffWave, WaveGrad, PriorGrad, SpecGrad, WaveFit, FastFit
Flow Matching 기반 모델: RFWave, FlowDec, PeriodWave, PeriodWave-Turbo, Flow2GAN
Streaming Generation: BinuralGrad, StreamFlow

Self-supervised Learning (SSL), Neural Codec

Continuous: Wav2Vec 2.0 (XLS-R, MMS), WavLM
Semantic Codec: HuBERT, RepCodec, SpeechTokenizer
Acoustic Codec: SoundStream, Encodec, DAC, HiFi-Codec, AudioDec
Text-aware Codec: TadiCodec
LLM Codec:

Page updated

Google Sites

Report abuse