2 The TEI Header

本文翻譯自:http://www.tei-c.org/release/doc/tei-p5-doc/zh-tw/html/HD.html, 周邦信 <zhoubx@gmail.com>, 2011.10.26-11.30

本章提出描述一件標記作品(encoded work)的問題,讓文本本身、它的來源、它的編碼以及它的修訂版本都完整記錄下來。

使用該文本的學者、處理它們的軟體以及圖書館、檔案館裡的編目人員都需要這樣的文件說明。

這些描述和宣告提供相當於印刷作品書名頁的電子版。

它們也構成相當於 碼書(code books) 的內容,或是介紹手冊,通常跟著一些電子資料集。

每一個 TEI-conformant 文本都必須有這樣的描述集,放在它的前面,並以本章所描述的方式標記它。

這個描述集稱為 TEI header,它的 tag 是 teiHeader,有四個主要部分:

  1. 一個檔案描述,標記為 fileDesc,包含電腦檔案本身的完整書目描述,該文本的使用者可以從此取得適當的引用書目資訊,圖書館館員或檔案保管員可以用它來創建圖書館或檔案庫裡的一個目錄條目來記錄它的存在。這裡的「電腦檔案」這個詞指的是該 header 所描述的整個文件,即使它被儲存為幾個不同的作業系統檔案。該檔案說明也包括電子文件的來源資訊。用來標記檔案說明的 TEI elements 在下面 2.2 The File Description 描述。
  2. 一個編碼描述,標記為 encodingDesc,描述電子文本跟它的來源之間的關係。它允許詳細描述該文本在文字轉錄過程中是否(或如何)經過正規化, 標記者如何解決來源中含糊不清的地方,採用哪個標記或分析等級,以及類似的東西。用來標記「編碼說明」的 TEI elements 在下面 2.3 The Encoding Description 中說明。
  3. 一個文件背景描述,標記為 profileDesc,包含文本的分類以及 contextual 資訊,例如它的主題,它被製造的情況,描述或參與製作的人等等。這樣的文本簡介對於像語料庫或語言叢書這樣高度結構化的複合文本特別有用,這類文本很需要強制執行一個受控制的描述語彙,或者檢索文本的類型或來源。文本簡介可能在任何形式的自動文字處理裡是有用的。用來標記文本簡介的 TEI elements 在下面 2.4 The Profile Description 中說明。
  4. 一個修訂歷史,標記為 revisionDesc,它允許標記者提供電子文本在發展期間所做的變動歷史。修訂歷史對於版本控制以及解決檔案歷史問題是重要的。用來標記修訂說明的 TEI elements 在下面 2.5 The Revision Description 中說明。

TEI header 可以又大又複雜,也可以很簡單。

某些應用領域 (例如,語料庫的建構以及演說文本的文字轉錄) 可能比其他領域需要更多專用詳細的資訊。

目前的建議(proposals)同時定義一個核心元素集 (全部都可以在任何 TEI header 裡使用) 以及一些額外的 elements,當 schema 裡包括了額外的專用 modules 的時候,這些額外的 elements 就可以在 header 裡使用。

例如使用言料庫 module (說明在 15 Language Corpora) 的時候,可以使用數個額外的 elements,如同該章進一步詳細說明的。

本章下一節簡介 header 的整體結構,以及它可能包含的各種資料。

接著詳細說明核心 header 裡可能使用的全部組成元素。

本章最後一節 2.6 Minimal and Recommended Headers,討論最小化的 TEI header 的建議內容,以及它和圖書館標準編目實務的關係。