以下說明本次各子任務各語言所使用之文件集及資料集。
本任務所使用之文件集為中文維基百科之所有詞條內文。
因不同日期有版本之差異,本次任務請使用 2014/2/10 的版本。
參加者若希望自己處理維基百科文字檔,
可由以下網址下載整部中文百科:
http://download.wikipedia.com/zhwiki/20140210/zhwiki-20140210-pages-articles.xml.bz2
然而中文維基百科中,文字撰寫為繁體中文及簡體中文混用,
恐造成參加者處理上的困擾。
這裡也將中文維基百科做了一些自動化的處理,
提供給參加者建置系統所用。
自動化處理動作包括:
因此 FV 之簡中 (CS) 繁中 (CT) 子任務各有對應之文件集:
FV-CS: zhwiki20140210_cn.tgz 依中國大陸用語轉換為全簡體之中文維基百科
FV-CT: zhwiki20140210_tw.tgz 依台灣地區用語轉換為全簡體之中文維基百科
因為這是中文第一次舉辦 FV 任務,並無過往的訓練資料集可使用。
礙於人力不足,
因此改採用 NTCIR-10 RITE-2 MC Datasets 裡的部份題目的 t2 句子來做為訓練資料集。
題號包含 CT-MC 之 389~881,以及 CS-MC 之 302~781。
其中原標籤為 F 及 B 者為 Entailment (E), C 者為 Contradiction (C), I 為 Unknown (U),
重覆之 t2 句子已經排除。
訓練資料集檔名分別為
FV-CS: FV-CS_training.xml
FV-CT: FV-CT_training.xml
所選擇的這部份 NTCIR-10 RITE-2 MC 題目,
當初的產生過程即參考了中文維基百科的內文,
是以標籤具有一定比例的正確性。
如果參加者發現訓練資料集中有標籤錯誤的情形,
懇請來信告知以便更正: cjlin@mail.ntou.edu.tw
系統驗證任務不需使用文件集。
依照分類方式以及語言共有 4 個不同的訓練資料集:
訓練資料集以 XML 格式編寫,
其中 <pair> 包含了以下各屬性:
(以 <pair id="5" label="F" revlabel="I" category="abbreviation"> 為例)
由於沒有簡體中文地區的主辦者,同樣礙於人力,
本次簡體中文訓練資料完全是以繁體中文版本轉換產生 (轉換方式依維基百科所提供規則)。