文件集及資料集

以下說明本次各子任務各語言所使用之文件集及資料集。

事實確認 (Fact Validation, FV)

文件集

本任務所使用之文件集為中文維基百科之所有詞條內文。

因不同日期有版本之差異,本次任務請使用 2014/2/10 的版本。

參加者若希望自己處理維基百科文字檔,

可由以下網址下載整部中文百科:

http://download.wikipedia.com/zhwiki/20140210/zhwiki-20140210-pages-articles.xml.bz2

然而中文維基百科中,文字撰寫為繁體中文及簡體中文混用,

恐造成參加者處理上的困擾。

這裡也將中文維基百科做了一些自動化的處理,

提供給參加者建置系統所用。

自動化處理動作包括:

    1. 捨棄條目 (title) 中出現冒號的詞條
    2. 將檔案分割為許多小檔案,各約在 3MB 左右
    3. 依照維基百科所提供之中文詞對應規則,將文字轉換成全為繁體或全為簡體。
    4. (註:並未採用各詞條中由作者提供之中文用詞轉換)

因此 FV 之簡中 (CS) 繁中 (CT) 子任務各有對應之文件集:

FV-CS: zhwiki20140210_cn.tgz 依中國大陸用語轉換為全簡體之中文維基百科

FV-CT: zhwiki20140210_tw.tgz 依台灣地區用語轉換為全簡體之中文維基百科

訓練資料集

因為這是中文第一次舉辦 FV 任務,並無過往的訓練資料集可使用。

礙於人力不足,

因此改採用 NTCIR-10 RITE-2 MC Datasets 裡的部份題目的 t2 句子來做為訓練資料集。

題號包含 CT-MC 之 389~881,以及 CS-MC 之 302~781。

其中原標籤為 F 及 B 者為 Entailment (E), C 者為 Contradiction (C), I 為 Unknown (U),

重覆之 t2 句子已經排除。

訓練資料集檔名分別為

FV-CS: FV-CS_training.xml

FV-CT: FV-CT_training.xml

所選擇的這部份 NTCIR-10 RITE-2 MC 題目,

當初的產生過程即參考了中文維基百科的內文,

是以標籤具有一定比例的正確性。

如果參加者發現訓練資料集中有標籤錯誤的情形,

懇請來信告知以便更正: cjlin@mail.ntou.edu.tw

系統驗證 (System Validation, SV)

系統驗證任務不需使用文件集。

訓練資料集

依照分類方式以及語言共有 4 個不同的訓練資料集:

訓練資料集以 XML 格式編寫,

其中 <pair> 包含了以下各屬性:

(以 <pair id="5" label="F" revlabel="I" category="abbreviation"> 為例)

    • id: 文句對之編號 (本例為 5)
    • label: t1 至 t2 方向之推論關係 (本例為 Forward, F) (本欄位在 formal test 時不提供)
    • revlabel: t2 至 t1 方向之推論關係 (本例為 Independent, I) (本欄位在 formal test 時不提供)
    • category: 此題推論所牽涉之語意現象 (本例為 abbreviation, 所有類型請參考任務定義) (本欄位在 formal test 時不提供)

由於沒有簡體中文地區的主辦者,同樣礙於人力,

本次簡體中文訓練資料完全是以繁體中文版本轉換產生 (轉換方式依維基百科所提供規則)。