4 文件背景描述

本文翻譯自 http://www.tei-c.org/release/doc/tei-p5-doc/zh-tw/html/HD.html#HD4, 2011.12.2-5

profileDesc 元素是 TEI 檔頭的第三個主要部分。

它不是必須的元素,目的是讓用於描繪關於一個文本或文集的各種描述面向特性的資訊可以被記錄在一個單一的統一框架中。

<profileDesc> (文件背景描述) 提供文件非書目性方面的細節描述,特別是所使用的語言及次要語言、在何種情況下製作、參與人員及其環境背景。

原則上,作為描繪一個文本的特性的工具來說,幾乎任何檔頭的元件可能都是重要的。

書面文本的作者,它的標題或出版日期,都可以被視為跟本節討論的任何參數在描繪它的特性方面至少具有相同的強度。

The rule of thumb applied has been to exclude from discussion here most of the information which generally forms part of a standard bibliographic style description, if only because such information has already been included elsewhere in the TEI header.

profileDesc 元素包含一個非必須的 creation 元素,跟著任意數量的來自 model.profileDesc class 的額外元素。

最簡單的情況,這表示它可能包含下列元素:

<creation> 包含關於文件建置的資訊。

<langUsage> (語言使用) 描述文件中使用的語言、次要語言、語域、方言等。

<textClass> (文件分類) 匯集以標準分類架構、索引典等來描述文件性質或主題的資訊。

這些元素在本節其餘部分進一步描述。

15 Language Corpora 描述的 corpus module 有被包括在 schema 之中,profileDesc 元素裡多了三個元素可以使用:

<textDesc> (文本描述) 提供文本在情境特徵方面的相關描述。

<particDesc> (參與描述) 描述在一個語言互動中可辨識的說話者、聲音或其他參與者。

<settingDesc> (背景描述) 描述語言互動所發生的一個或多個背景,可用一段散文描述或是一系列的背景元素來表達。

這些元素的描述請看 15.2 Contextual Information

11 Representation of Primary Sources 所描述用於主要來源文字轉錄的 transcr module 有被包括在 schema 裡面,下面元素可以用在 profileDesc 元素裡:

<handNotes> 包含一系列 handNote 元素,列出來源文件中不同的書寫者。

這個元素的描述請看 11.4.1 Document Hands

它的目的是匯集若干 handNote 元素,每一個都描述手寫稿中可辨識的不同書寫者。

handNote 元素也可以出現在結構化的手稿描述之中,如果 10 Manuscript Description 所描述的 msdescription module 有被包括在 schema 裡面的話。

因此,handNote 元素事實上是在 header module 裡宣告,但是只有在 transcr 或 msdescription module 有被包括在 schema 裡面的時候才能使用它。

請看 11.4.1Document Hands 的進一步討論。

建置

creation 元素包含短語描述該文本的起源,例如它作成的日期和地點。

<creation> 包含關於文件建置的資訊。

文件作成的日期跟地點對於語言變異的研究通常是特別重要;因為這些訊息不能有信心地經由副本的書目描述推斷得知,creation 元素可以用來為這個資訊提供一個一致的存放的地方:

<creation>
 <date when="1992-08">August 1992</date>
 <rs type="city">Taos, New Mexico</rs>
</creation>

語言使用

langUsage 元素用在 profileDesc 元素裡面,用來描述文本中所用到的語言、次要語言、語域、方言等等。

它包含一個或多個 language 元素,每個提供關於一個語言的資訊,特別是該語言出現在文本中的數量。

注意,這個元素不應用來提供關於該語言所使用的非標準字元或字形的資訊;這種資訊應記錄在編碼描述的 charDecl 元素裡 (詳見 5 Representation of Non-standard Characters and Glyphs)。

<langUsage> (語言使用) 描述文件中使用的語言、次要語言、語域、方言等。

<language> 個別敘述文本中使用的語言或次要語言。

@usage 標明該文本使用此語言的大約比例 (以冊計) 。

@ident (identifier) 提供一語言代碼,其編碼方式定義在 RFC 3066 中 (或其系列中) ,用來識別此元素所紀錄的語言,並由全域屬性 @xml:lang 所參照。

文件中用到的每個不同語言都可以提供一個 language 元素。

如果使用的話,它的 @ident 屬性應指定一個適當的語言辨識符,如 vi.1. Language identification 所進一步討論的。

如果在文件其他地方的 @xml:lang 屬性值使用了擴充語言辨識符,這點尤其重要。

這是使用這個元素的例子:

<langUsage>
 <language ident="fr-CA" usage="60">Québecois</language>
 <language ident="en-CA" usage="20">Canadian business English</language>
 <language ident="en-GB" usage="20">British English</language>
</langUsage>

The Text Classification

核心 profileDesc 元素的第二個元件是 textClass 元素。

這個元素用於分類文本,依據一個或多個下列方法:

  • 參考國際公認的分類法,例如杜威十進分類法、通用十進制分類法、科隆分類、美國國會圖書館分類,或任何其他廣泛應用於圖書館及文件工作的系統
  • 提供一組關鍵字,如大英圖書館、美國國會圖書館對出版品提供的範例
  • 參照有關領域中任何其他文本分類法,或者特有的第一手材料;這可能包括一個 15.2.1 The Text Description 中定義的情境參數的經常值之一,或者 15.2.2 The Participant Description 描述的人口統計元素。

當處理語料庫或叢集時最後一點尤其重要,因為可以避免重新分類的費用與不便,也可以記錄這種材料的組織原則。

為此提供以下元素:

<keywords> 包含標明文件主題或性質的關鍵詞或字詞列表。

@scheme 標明相關關鍵詞所使用到的詞彙範圍。

<classCode> (classification code) 包含文件在某標準分類系統中所屬的分類代碼。

@scheme 說明使用中的分類系統或分類法。

<catRef/> (類目參照) 標明在某分類法或文件類型學中,一個或多個已定義之類目。

keywords 元素藉由提供一個關鍵字清單,來對某個本文簡單做分類,這些關鍵字可以是描述它的主題或題材、它的格式、日期等等。

在某些系統中,項目在清單中的次序是有意義的,例如從主要論題到次要的;而在其他系統中,該清單則是有它自己有組織的底層結構。

這裡沒有建議哪種方法要優先採用。

可能的話,這些關鍵字應來自一個被認可的來源,例如大英圖書館/美國國會圖書館出版資料編目,就印刷書籍來說,或者適用於該領域的已發行同義詞詞典(thesaurus)。

@scheme 屬性應用來指出所用關鍵字的來源。

如果關鍵字來自可以線上取得的外部定義權威,這個屬性應該直接指到它,如下例:

<keywords scheme="http://classificationweb.net">
 <term>Babbage, Charles</term>
 <term>Mathematicians - Great Britain - Biography</term>
</keywords>
<keywords scheme="http://id.loc.gov/authorities/about.html#lcsh">
 <term>English literature -- History and criticism -- Data processing.</term>
 <term>English literature -- History and criticism -- Theory, etc.</term>
 <term>English language -- Style -- Data processing.</term>
 <term>Style, Literary -- Data processing.</term>
</keywords>

如果該權威檔不能線上取得,但是被普遍認同並廣泛引用,那麼應該在 2.3.6 The Classification Declaration 所描述的 taxonomy 元素裡為它提供一個書目描述;然後 @scheme 屬性就可以通常的方法參照到該 taxonomy 元素的辨識符:

<keywords scheme="#welch">
 <term>ceremonials</term>
 <term>fairs</term>
 <term>street life</term>
</keywords>
<!-- 文件的其他地方 -->
<taxonomy xml:id="welch">
 <bibl>
  <title>Notes on London Municipal Literature, and a Suggested
   Scheme for Its Classification</title>
  <author>Charles Welch</author>
  <edition>1895</edition>
 </bibl>
</taxonomy>

或者,如果關鍵字詞彙本身是本地定義的,@scheme 就要指到該本地定義,它通常會在編碼描述的 classDecl 部分裡面的 taxonomy 元素裡面 (參見 2.3.6 The Classification Declaration)。

classCode 元素也是將某個別文本分類,但是提供一個數值或其他編碼,而不是描述性的用語。

這些代碼構成一個公認的分類系統,例如杜威十進分類法。

跟關鍵字的方式一樣,@scheme 屬性用來指出分類系統的來源:這可能是任何種類的 pointer,指向一個 TEI 元素,可能是在目前文件裡面,和上面的 keywords 範例一樣,或是指向某些該系統的權威來源,如下例:

<classCode
 scheme="http://www.udcc.org/udcsummary/php/index.php">005.756</classCode>

catRef 元素藉由使用 @target 屬性指向一個或多個 category 元素來分類一個個別文本,該屬性是它繼承自 att.pointing class 而來。

category 元素 (在 2.3.6 The Classification Declaration 裡完整描述) 持有某個分類法之下的某個特定的分類或類別的資訊。

每一個這樣的類目必須有一個唯一的辨識符,它可以提供作為 catRef 元素的 @target 屬性值,這會被視為屬於所指的類目。

當然,一個文本可能會屬於多個類目,這種情況下,catRef 元素的 @target 屬性就要有多個辨識符,如下例:

<catRef target="#b.a4 #b.d2"/>

@scheme 屬性可以提供 @target 屬性所指的類目所屬的分類法,如果所指向的來源類目沒有適當表達出該分類法的話。

例如,

<catRef
 target="#b.a4 #b.d2"
 scheme="http://www.example.com/browncorpus"/>
<catRef target="http://www.example.com/SUC/#A45"/>

同一個文本在這裡被分類為布朗分類系統下的 b.a4 及 b.d2 類目 (假設可由 http://www.example.com/browncorpus 取得),以及所給予的 URL 裡說明的 SUC 分類系統的 'A45' 類目。

catRefclassCode 元素之間的區別,前者通常是在檔頭裡使用窮盡列舉的辨識碼,而後者可能是用於較傾向沒有限制的開放式或描述性的分類系統。