Dian Yu 于典

NLP Researcher

Tencent AI Lab

E-mail: yudiandoris (AT) gmail (DOT) com

Research Interests

Natural Language Processing, Information Extraction, Machine Reading Comprehension, and Dialogue Understanding

Publications

Google Scholar

Zhenwen Liang, Dian Yu, Xiaoman Pan, Wenlin Yao, Qingkai Zeng, Xiangliang Zhang, and Dong Yu. MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning (LREC-COLING 2024). [paper] [code]
Sihao Chen, Hongming Zhang, Tong Chen, Ben Zhou, Wenhao Yu, Dian Yu, Baolin Peng, Hongwei Wang, Dan Roth, and Dong Yu. Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic Representations (NAACL 2024). [paper] [code]
Dian Yu, Xiaoyang Wang, Wanshun Chen, Nan Du, Longyue Wang, Haitao Mi, and Dong Yu. More Than Spoken Words: Nonverbal Message Extraction and Generation (EMNLP 2023).
Longyue Wang, Chenyang Lyu, Tianbo Ji, Zhirui Zhang, Dian Yu, Shuming Shi, Zhaopeng Tu. Document-Level Machine Translation with Large Language Models (EMNLP 2023).
Dian Yu, Ben Zhou, and Dong Yu. End-to-End Chinese Speaker Identification (NAACL 2022). [paper] [code]
Kai Sun*, Dian Yu*, Jianshu Chen, Dong Yu, and Claire Cardie. Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge (ACL 2022). [paper] [code]
Chao Zhao, Wenlin Yao, Dian Yu, Kaiqiang Song, Dong Yu, and Jianshu Chen. Learning-by-Narrating: Narrative Pre-Training for Zero-Shot Dialogue Comprehension. (ACL 2022) (short). [paper] [code]
Xiang Yue, Xiaoman Pan, Wenlin Yao, Dian Yu, Dong Yu, and Jianshu Chen. C-More: Pretraining to Answer Open-Domain Questions by Consulting Millions of References. (ACL 2022) (short). [paper] [code]
Dian Yu, Kai Sun, Dong Yu, and Claire Cardie. Self-Teaching Machines to Read and Comprehend with Large-Scale Multi-Subject Question-Answering Data. (EMNLP 2021 findings). [paper] [code]
Wenlin Yao, Xiaoman Pan, Lifeng Jin, Jianshu Chen, Dian Yu, and Dong Yu. Connect-the-Dots: Bridging Semantics between Words and Definitions via Aligning Word Sense Inventories. (EMNLP 2021). [paper] [code]
Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Yudong Li, Yechen Xu, Kai Sun, Dian Yu, Cong Yu, Yin Tian, Qianqian Dong, Weitang Liu, Bo Shi, Yiming Cui, Junyi Li, Jun Zeng, Rongzhao Wang, Weijian Xie, Yanting Li, Yina Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng Zhao, Cong Yue, Xinrui Zhang, Zhengliang Yang, Kyle Richardson, and Zhenzhong Lan. CLUE: A Chinese Language Understanding Evaluation Benchmark. (COLING 2020). [paper][code]
Dian Yu*, Kai Sun*, Claire Cardie, and Dong Yu. Dialogue-Based Relation Extraction. (ACL 2020). [paper] [code]
HongyuGong, Yelong Shen, Dian Yu, Jianshu Chen, and Dong Yu. 2020. Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension. (ACL 2020). [paper] [code]
Kai Sun, Dian Yu, Dong Yu, and Claire Cardie. 2020. Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension. (TACL). [paper] [code]
Yue Cao, Xiaojun Wan, Jin-ge Yao, and Dian Yu. MultiSumm: Towards a Unified Model for Multi-Lingual Abstractive Summarization. (AAAI 2020).
Hai Wang, Dian Yu, Kai Sun, Jianshu Chen, and Dong Yu. 2019. Improving Pre-Trained Multilingual Models with Vocabulary Expansion. (CoNLL 2019). [paper]
Hai Wang, Dian Yu, Kai Sun, Jianshu Chen, Dong Yu, David McAllester, and Dan Roth. 2019. Evidence Sentence Extraction for Machine Reading Comprehension. (CoNLL 2019). [paper] [resource]
Kai Sun, Dian Yu, Dong Yu and Claire Cardie. 2019. Improving Machine Reading Comprehension with General Reading Strategies. (NAACL-HLT 2019). [code]
Kai Sun, Dian Yu, Jianshu Chen, Dong Yu, Yejin Choi, Claire Cardie. 2019. DREAM: A Challenge Dataset and Models for Dialogue-Based Reading Comprehension. (TACL 2019). [dataset]
Dian Yu. 2017. Unsupervised Graph-Based Relation Extraction and Validation for Knowledge Base Population. PhD Dissertation. Rensselaer Polytechnic Institute.
Dian Yu, Lifu Huang, and Heng Ji. 2017. Open Relation Extraction and Grounding. (IJCNLP 2017).
Dian Yu, Heng Ji. 2016. Unsupervised Person Slot Filling based on Graph Mining. (ACL 2016).
Shi Zhi, Bo Zhao, Wenzhu Tong, Jing Gao, Dian Yu, Heng Ji and Jiawei Han. 2015. Modeling Truth Existence in Truth Discovery (KDD 2015).
Dian Yu, Yulia Tyshchuk, Heng Ji and William Wallace. 2015. Detecting Deceptive Groups Using Conversations and Network Analysis. (ACL-IJCNLP 2015). [games]
Dian Yu, Heng Ji, Sujian Li and Chin-Yew Lin. 2015. Why Read if You can Scan: Scoping Strategy for Biographical Fact Extraction. (NAACL-HLT 2015) (short). [triggers]
Dian Yu, Hongzhao Huang, Taylor Cassidy, Heng Ji, Chi Wang, Shi Zhi, Jiawei Han, Clare Voss and Malik Magdon-Ismail. 2014. The Wisdom of Minority: Unsupervised Slot Filling Validation based on Multi-dimensional Truth-Finding. (COLING 2014).
Hongzhao Huang, Zhen Wen, Dian Yu, Heng Ji, Yizhou Sun, Jiawei Han and He Li. 2013. Resolving Entity Morphs in Censored Data. (ACL 2013).

KBP and Other Workshops:

Xiaoman Pan*, Kai Sun*, Dian Yu, Jianshu Chen, Heng Ji, Claire Cardie, and Dong Yu. Improving Question Answering with External Knowledge. (MRQA 2019). [resource].
Dian Yu, Xiaoman Pan, Boliang Zhang, Lifu Huang, Di Lu, Spencer Whitehead and Heng Ji. RPI_BLENDER TAC-KBP2016 System Description. Proc. Text Analysis Conference (TAC 2016).
Yu Hong, Di Lu, Dian Yu, Xiaoman Pan, Xiaobin Wang, Yadong Chen , Lifu Huang , Heng Ji. RPI BLENDER TAC-KBP2015 System Description. Proc. Text Analysis Conference (TAC 2015).
Yu Hong, Xiaobin Wang, Yadong Chen, Jian Wang, Tongtao Zhang, Jin Zheng, Dian Yu, Qi Li, Boliang Zhang, Han Wang, Xiaoman Pan, Heng Ji. RPI BLENDER TAC-KBP2014 Knowledge Base Population System. Proc. Text Analysis Conference (TAC 2014).
Dian Yu, Haibo Li, Taylor Cassidy, Qi Li, Zheng Chen, Heng Ji, Yaozhong Zhang, and Dan Roth. 2013. RPI-BLENDER TAC-KBP2013 Knowledge Base Population System Description. Proc. Text Analysis Conference (TAC 2013).

Professional Services

Program Committee:

ACL (2017-2021), NAACL-HLT (2016, 2018, 2019), COLING (2020), EMNLP (2018-2020), AAAI (2019, 2020) , EACL (2021) , ICASSP (2022)

Journal:

NLE (2019, 2021), JAIR (2018, 2019), TASLP (2019)

Senior Area Chair:

AACL-IJCNLP (2022): Question Answering

Junior Area Chair/Action Editor/Meta-Reviewer:

NAACL-HLT (2021): Information Extraction, EMNLP (2021): Information Extraction, ACL (2022),

ICASSP (2023, 2024), LREC-COLING (2024): Information Extraction

ARR (2024)

Education

09/2013-09/2017 Ph.D. in Computer Science, Rensselaer Polytechnic Institute (Advisor: Prof. Heng Ji)

09/2012-07/2013 Ph.D. in Computer Science, The Graduate Center, CUNY (Advisor: Prof. Heng Ji)

09/2008-07/2012 B.Eng. in Communication Engineering, Beijing University of Posts and Telecommunications

Work Experience

Tencent AI Lab, Bellevue, WA

Senior researcher Nov. 2017 - present

Bosch Research, Palo Alto, CA

Research intern May 2015 - Aug. 2015

Mentor: Dr. Lin Zhao, Dr. Kui Xu

Knowledge Mining Group, Microsoft Research Asia, Beijing, China

Research intern Jun. 2014 - Sep. 2014

Mentor: Dr. Chin-Yew Lin

Language Computing & Web Mining Group, Peking University, Beijing, China

Undergraduate research intern Aug. 2011 - July 2012

Mentor: Prof. Xiaojun Wan