Chong Zhang

Chong ZHANG

Hi! I am a Senior Algorithm Engineer in the Tongyi Lab at Alibaba Group. I received my Ph.D. and Master degree from National University of Singapore in 2018 and 2012, respectively, under the supervision of Prof. Tan Kay Chen and Prof. Li Haizhou, and received my bachelor degree from Harbin Institute of Technology in 2011. My research interests include speech recognition, spoken language processing, multimodal representation learning, audio/music generation, machine learning, artificial intelligence.

📂 Google Scholar 📗 ORCiD 📎 Linkedin 📑 OpenReview 📑 Semantic Scholar ✉️ chong.zhang AT alibaba-inc.com

Journal

News

2025-02-11 开源上新 | 通义音乐生成技术InspireMusic
2025-01 We have open-sourced music generation models, including InspireMusic-Base, InspireMusic-Base-24kHz, InspireMusic-1.5B, InspireMusic-1.5B-24kHz, and InspireMusic-1.5B-Long, available on both ModelScope and HuggingFace. Online demos are available on HuggingFace Spaces and ModelScope Spaces.
2024-11 We are excited to announce the open-sourcing of the InspireMusic code repository and demos for music generation.
2023-12-22 ICASSP2024｜通义实验室语音团队入选论文速览,
2023-12-20 EMNLP2023｜通义实验室语音团队入选论文解析
2023-06-13 INTERSPEECH2023｜达摩院语音实验室入选论文全况速览
2023-03-01 ICASSP2023｜达摩院语音实验室入选论文全况速览

Recent Preprints [Google Scholar]

Education

2013 - 2018 Ph.D., National University of Singapore

Supervisors: Chair Professor Tan Kay Chen (IEEE Fellow) and Presidential Chair Professor Li Haizhou (IEEE Fellow, ISCA Fellow, FSEng)

2011 - 2012 M.Sc., National University of Singapore

2007 - 2011 B.Eng, Harbin Institute of Technology

Selected Publications

Conference

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [paper][code]

Chong Zhang*, Yukun Ma*, Qian Chen, Wen Wang, Shengkui Zhao, Zexu Pan, Hao Wang, Chongjia Ni, Trung Hieu Nguyen, Kun Zhou, Yidi Jiang, Chaohong Tan, Zhifu Gao, Zhihao Du, Bin Ma. 2025

UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook [paper]

Yidi Jiang, Qian Chen, Shengpeng Ji, Yu Xi, Wen Wang, Chong Zhang, Xianghu Yue, ShiLiang Zhang, Haizhou Li

ACL 2025 Main.

- - Are Soft Prompts Good Zero-shot Learners for Speech Recognition? [paper]

Dianwen Ng, Chong Zhang, Ruixi Zhang, Yukun Ma, Fabian Ritter-Gutierrez, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma.

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024.

- - Adapter-tuning with Effective Token-dependent Representation Shift for Automatic Speech Recognition

Dianwen Ng, Chong Zhang, Ruixi Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Qian Chen, Wen Wang, Eng Siong Chng, Bin Ma.

Proc. INTERSPEECH 2023.

- - ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention [paper]

Jia Qi Yip, Tuan Truong, Dianwen Ng, Chong Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma.

Proc. INTERSPEECH 2023.

- - Dual Acoustic Linguistic Self-supervised Representation Learning for Cross-Domain Speech Recognition

Zhao Yang, Dianwen Ng, Chong Zhang, Xiao Fu, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Eng Siong Chng, Bin Ma, Jizhong Zhao.

Proc. INTERSPEECH 2023.

- - deHuBERT: Disentangling Noise In A Self-Supervised Model For Robust Speech Recognition [paper]

Dianwen Ng, Ruixi Zhang, Jia Qi Yip, Zhao Yang, Jinjie Ni, Chong Zhang, Yukun Ma, Chongjia Ni, Eng Siong Chng and Bin Ma.

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2023.

- - Auxiliary Pooling Layer For Spoken Language Understanding [paper]

Yukun Ma, Trung Hieu Nguyen, Jinjie Ni, Wen Wang, Qian Chen, Chong Zhang and Bin Ma.

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , 2023.

Journal

- - Multiobjective Deep Belief Networks Ensemble for Remaining Useful Life Estimation in Prognostics [paper] [BibTex]

C. Zhang, P. Lim, A. K. Qin, and K. C. Tan

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), vol. 28, pp. 2306–2318, Oct 2017.

- - A Cost-Sensitive Deep Belief Network for Imbalanced Classification [paper][BibTex]

C. Zhang, K. C. Tan, H. Li, and G. S. Hong

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), vol. 30, no. 1, pp. 109-122, Jan. 2019.

- - Tuning Large Language Models for Speech Recognition with Mixed-Scale Re-Tokenization [paper]

Y. Ma, C. Zhang*, Q. Chen, W. Wang and B. Ma

IEEE Signal Processing Letters, vol. 31, pp. 1740-1744, 2024, doi: 10.1109/LSP.2024.3419719.

MDSF-YOLO: Advancing object detection with a multiscale dilated sequence fusion network

Y. Sun, C. Zhang, X. Li, X. Jing, H. Kong, Q. G. Wang

IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2025.

Technical Report

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [paper][code]
Minmo: A multimodal large language model for seamless voice interaction [paper]

Professional Services

Senior Member, IEEE (The Institute of Electrical and Electronics Engineers)
Invited Reviewer
- Journals/Transactions Reviewing: TNNLS, TASLP, TPAMI, TKDE, TETCI, TCYB, SPL, Neurocomputing, MSSP, etc.
- Conferences Reviewing: ICASSP ('22 - '25), Interspeech ('21, '22, '25), EMNLP ('23), CEC ('16 - '21,'23), IJCNN ('16, '22), etc.

Opensource Contributor

Google Sites

Report abuse

Chong ZHANG

Recent Preprints [Google Scholar]

Education

Selected Publications

Conference

Journal

Technical Report

Professional Services

Opensource Contributor

© Chong Zhang since 2016