Publications

Conferences
1. Yao Chen, Feng Yu, Hongshi Tan, Xuanhua Shi, Weng-Fai Wong, Bingsheng He, Hai Jin, "HiCAM: Accelerating Parallel Triangle Counting via Bit-Efficient Content-Addressable Memory on FPGA", Proceedings of the 59th IEEE/ACM International Symposium on Microarchitecture (MICRO 2026), 2026
2. Mengfan Li, Xuanhua Shi, Yang Deng, "CoSToM: Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in LargeLanguage Models", ACL 2026. Best theme paper award.
3. Jiaqi Zhai, Xuanhua Shi, Wenju Zhao, Kaiyi Huang, Chencheng Ye, Shunsen Lv, Zhongtian Long, Bingsheng He, Hai Jin, "ParetoES: Hardware-Accelerated Sparse EmbeddingSimilarity via Pareto-Optimal Pruning", in Proceedings of the 53rd International Symposium on Computer Architecture (ISCA), 2026
4. Weifang Hu, Langshi Chen, Man Yuan, Youyang Yao, Xiulong Yuan, Li Tian, Yong Li, Wei Lin, Xuanhua Shi, Zhengping Qian and Jingren Zhou, "Tessera: A Holistic Pipeline Parallelism Framework for Trillion-Parameter Heterogeneous MoE Training", in Proceedings of the 20th USENIX Symposium on Operating Systems Design and Implementation (OSDI '26), 2026
5. Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo, “Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning”, in Proceedings of the 48th IEEE/ACM International Conference on Software Engineering (ICSE), 2026
6. Jiaqi Zhai, Xuanhua Shi, Kaiyi Huang, Chencheng Ye, Weifang Hu, Bingsheng He, Hai Jin, "AccelES: Accelerating Top-K SpMV for Embedding Similarity via Low-bit Pruning", Proceedings of IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2025
7. Zongze Jiang, Ming Wen, Jialun Cao, Xuanhua Shi, Hai Jin, "Towards Understanding the Effectiveness of Large Language Models on Directed Test Input Generation", Proceedings of IEEE/ACM International Conference on Automated Software Engineering(ASE), 2024 Distinguished Paper Award
8. Siran Liu, Chengxiang Qi, Ying Cao, Chao Yang, Weifang Hu, Xuanhua Shi, Fan Yang, Mao Yang, Uncovering Nested Data Parallelism and Data Reuse in DNN Computation with FractalTensor, in Proceedings of the 30th ACM SIGOPS Symposium on Operating Systems Principles (SOSP), 2024
9. Xin Wang, Zhengru Wang, Zhenyu Wu, Shuhao Zhang, Xianzhi Zeng, Zhonghao Yang, Haolan He, Yuhao Wu, Xuanhua Shi, Li Lu, "Data Stream Clustering: An In-depth Empirical Study", in Proceedings of ACM International Conference on Management of Data (ACM SIGMOD), Seattle, WA, USA, 2023
10. Weiliang Ma, Qian Xiong, Xuanhua Shi*, Xiaosong Ma, Hai Jin, Haozhao Kuang, Mingyu Gao, Ye Zhang, Haichen Shen, Weifang Hu, "GZKP: A GPU Accelerated Zero-Knowledge Proof System", in Proceedings of the ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2 (ASPLOS ’23), Vancouver, Canada, March 25-29, 2023. Acceptance ratio: 21%. Top 100 Chips achievements
11. Xuanhua Shi, Zezhao Feng, Kaixi Li, YongLuan Zhou, Hai Jin, Yan Jiang, Bingsheng He, Zhijun Ling, Xin Li, "ByteSeries : An In-Memory Time Series Database for Large-Scale Monitoring Systems", in Proceedings of the ACM Symposium on Cloud Computing (SoCC'20), Seattle, WA, USA, October 19-21, 2020, Acceptance ratio: 24.5%（ 35/143)
12. Xuan Peng, Xuanhua Shi*, Hulin Dai, Hai Jin, Weiliang Ma, Qian Xiong, Fan Yang, Xuehai Qian, "Capuchin: Tensor-based GPU Memory Management for Deep Learning", in Proceedings of the ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS'2020), Lausanne, Switzerland, March 16-20, 2020. Acceptance ratio: 18.1% (86/476). Talk on Youtube

Journals
1. Qian Xiong, Weiliang Ma, Xuanhua Shi, Yongluan Zhou, Hai Jin, Kaiyi Huang, Haozhou Wang, Zhengru Wang, gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography, ACM Transactions on Architecture and Code Optimization, 2025, to appear (source codes)
2. Yusheng Hua, Xuanhua Shi, Ligang He, Kang He, Teng Zhang, Hai Jin, Yong Chen, RuYi: Optimizing Burst Buffer through Automated, Fine-Grained Process-to-BB Mapping, IEEE Transactions on Computers, 2024, to appear
3. Hai Jin, Zhanyang Zhu, Ligang He, Yuhao Li, Yusheng Hua, Xuanhua Shi, MMDataLoader: Reusing Preprocessed Data Among Concurrent Model Training Tasks. IEEE Transactions on Computers, 73(2): 510-522, 2024
4. Wenchao Wu, Xuanhua Shi , Ligang He , and Hai Jin, TurboGNN: Improving the End-to-End Performance for Sampling-Based GNN Training on GPUs, IEEE Transactions on Computers, 72(9): 2571-2584, 2023
5. Xuanhua Shi, Xuan Peng, Ligang He, Yunfei Zhao, Hai Jin, Waterwave: A GPU Memory Flow Engine for Concurrent DNN Training. IEEE Transactions on Computers, 72(10): 2938-2950, 2023 (Waterwave Could Quench AIs' Thirst for GPU Memory, IEEE Journal Watch)
6. Xuanhua Shi, Wei Liu, Ligang He, Hai Jin, Ming Li,Yong Chen, Optimizing the SSD Burst Buffer by Traffic Detection, ACM Transactions on Architecture and Code Optimization,2020, 17(1)
7. Yusheng Hua, Xuanhua Shi, Kang He, Hai Jin, Wei Xie, Ligang He, Yong Chen, LoomIO: Object-Level Coordination in Distributed File Systems. IEEE Transactions on Parallel and Distributed Systems, 33(8): 1799-1810, 2022
8. Zhigao Zheng, Xuanhua Shi, Ligang He, Hai Jin, Shuo Wei, Hulin Dai, Xuan Peng, Feluca: A Two-Stage Graph Coloring Algorithm With Color-Centric Paradigm on GPU. IEEE Transactions on Parallel and Distributed Systems, 32(1): 160-173, 2021
9. Xuanhua Shi, Wei Liu, Ligang He, Hai Jin, Ming Li, Yong Chen, Optimizing the SSD Burst Buffer by Traffic Detection. ACM Transactions on Architecture and Code Optimization, 17(1): 8:1-8:26, 2020
10. Xuanhua Shi, Zhixiang Ke, Yongluan Zhou, Hai Jin, Lu Lu, Xiong Zhang, Ligang He, Zhenyu Hu, Fei Wang, Deca: A Garbage Collection Optimizer for In-Memory Data Processing. ACM Transactions on Computer Systems, 36(1): 3:1-3:47, 2018

Full list
1. DBLP: https://dblp.org/pid/85/5317.html
2. Google Scholar: https://scholar.google.com/citations?user=B5dWy88AAAAJ&hl=en

Google Sites

Report abuse