CONTACT US
음성 합성 (Text-to-Speech, Voice Conversion), 음성 언어 모델 (Speech Codec, Language Model, Speech-to-Speech Translation)에 관심있는 석.박사 대학원 신입생을 모집합니다. 관심있는 지원자는 sanghoonlee@ajou.ac.kr로 자기소개서 및 CV 제출 바랍니다. (Python 및 딥러닝 관련 경험 학생 우대)
아래는 기초~최신(+연구실) 논문 리스트입니다. 지원 전, 기초 논문 (1,5,8)을 먼저 읽으시는 것을 추천드립니다. 이외 논문은 NeurIPS, ICLR, ICML, AAAI, ICASSP, Interspeech, TASLP 논문들을 우선으로 참고해서 읽는 것을 추천드립니다.
Text-to-Speech (TTS)
기초 AR 모델: Tacotron, Tacotron 2, Prosody Trasnfer, GST, Transformer TTS
Parallel Model: FastSpeech 1/2, Glow-TTS, VITS, NaturalSpeech, HierSpeech/HierSpeech++
Diffusion/FM: Grad-TTS, NaturalSpeech2, P-Flow, VoiceBox, Simple-TTS
Language Model: VALL-E, Make-A-Voice, Mega-TTS, UniAudio, CLaM-TTS
Voice Conversion (VC)
기초: AutoVC
SSL 기반: Speech Resynthesis, NANSY/NANSY++, HierVST/HierSpeech++
Diffusion: DiffVC, Diff-HierVC, DDDM-VC
Neural Vocoder
기초: WaveNet
GAN 기반 Parallel 모델: Parallel WaveGAN, MelGAN, HiFi-GAN, BigVGAN, Vocos
Self-supervised Learning (SSL), Neural Codec
Continuous: Wav2Vec 2.0 (XLS-R, MMS), WavLM
Semantic Codec: HuBERT, RepCodec, SpeechTokenizer
Acoustic Codec: SoundStream, Encodec, DAC, HiFi-Codec, AudioDec
오픈소스
So-VITS, Tortoise (-->XTTS)