Task B Dataset

Dataset Format

Our dataset for Task B is the QRCD (Qur'anic Reading Comprehension Dataset) v1.2. QRCD_v1.2 (the current version we are releasing) is composed of the original 1,093 question-passage (QP) pairs of QRCD_v1.1, in addition to 469 new QP pairs, 407 of which are introduced for evaluating the systems in the MRC task. The total 1,562 QP pairs are coupled with their extracted answers to constitute 1,889 question-passage-answer triplets. To make the reading comprehension task more realistic (thus challenging), we have included in this version of the QRCD dataset questions that do not have an answer in the Holy Qur’an. We call them zero-answer questions.  Overall, QRCD_v1.2 includes a total of 76 QP pairs (about 5%) for zero-answer questions. Including zero-answer questions is the main difference between QRCD_v1.1 and QRCD_v1.2 (other than their difference in size). 

QRCD is a JSON Lines (JSONL) file; each line is a JSON object that comprises a question-passage pair, along with its answers extracted from the accompanying passage. The dataset adopts the format shown below. The sample below has three JSON objects, one of which is a *zero-answer* question.  

{  "pq_id": "38:41-44_105",  "passage": "واذكر عبدنا أيوب إذ نادى ربه أني مسني الشيطان بنصب وعذاب. اركض برجلك هذا مغتسل بارد وشراب. ووهبنا له أهله ومثلهم معهم رحمة منا وذكرى لأولي الألباب. وخذ بيدك ضغثا فاضرب به ولا تحنث إنا وجدناه صابرا نعم العبد إنه أواب.",  "surah": 38,  "verses": "41-44",  "question": "من هو النبي المعروف بالصبر؟",  "answers": [    {      "text": "أيوب",      "start_char": 12    }  ]}{  "pq_id": "74:32-48_330",  "passage": "كلا والقمر. والليل إذ أدبر. والصبح إذا أسفر. إنها لإحدى الكبر. نذيرا للبشر. لمن شاء منكم أن يتقدم أو يتأخر. كل نفس بما كسبت رهينة. إلا أصحاب اليمين. في جنات يتساءلون. عن المجرمين. ما سلككم في سقر. قالوا لم نك من المصلين. ولم نك نطعم المسكين. وكنا نخوض مع الخائضين. وكنا نكذب بيوم الدين. حتى أتانا اليقين. فما تنفعهم شفاعة الشافعين.",  "surah": 74,  "verses": "32-48",  "question": "ما هي الدلائل التي تشير بأن الانسان مخير؟",  "answers": [    {      "text": "لمن شاء منكم أن يتقدم أو يتأخر",      "start_char": 76    },    {      "text": "كل نفس بما كسبت رهينة",      "start_char": 108    }   ]{  "pq_id": "28:85-88_322",  "passage": "إن الذي فرض عليك القرآن لرادك إلى معاد قل ربي أعلم من جاء بالهدى ومن هو في ضلال مبين. وما كنت ترجو أن يلقى إليك الكتاب إلا رحمة من ربك فلا تكونن ظهيرا للكافرين. ولا يصدنك عن آيات الله بعد إذ أنزلت إليك وادع إلى ربك ولا تكونن من المشركين. ولا تدع مع الله إلها آخر لا إله إلا هو كل شيء هالك إلا وجهه له الحكم وإليه ترجعون.",  "surah": 28,  "verses": "85-88",  "question": "هل تدبر القرآن فرض؟",  "answers": []
}

Download the Dataset

You can download the training and dev sets of QRCD from our main repo. 

We will release the test set on August 14, 2023.

Download the Reader Script

A reader script for QRCD is released on our main repo

How to cite

If you use the QRCD dataset in your research, please cite the following references:

Acknowledgments

We would like to thank all the Qur’an specialists who contributed to annotating/rating the question-answer pairs, especially Dr. Ahmad Shukri, Professor of Tafseer and Qur’anic Sciences at Qatar University, for his scholarly advice throughout the annotation process of the answers extracted from the Holy Qur'an.