資料庫檢索基本概念-
控制語言與MeSH、Emtree簡介
崑巖醫學圖書分館 陳威宇
索引的意義與功能
索引(index)是指透過有規則的排序方式,指引使用者到資訊內容或資料所在位置的一種工具。起初索引專指將書籍內容或重要詞彙摘錄,並依順序(如字母順、筆畫、部首)排列,同時標明所在頁數的清單,即所謂「書後索引」。此時的索引多以專名(人名、地名)、篇目名稱或語詞作為款目,讓讀者知道該名稱於書中的所在位置。一直到18世紀,開始有了主題索引(subject index)的概念。主題索引即根據文獻的內容,利用適當的詞彙進行描述。既可歸納該文獻的主題,同時在網路環境中也能夠增加文獻被搜尋到的機會,提高其可查找性。對線上資料庫而言,索引不僅提供期刊文獻的內容線索,也為其增添檢索途徑。
圖1 書後索引截圖
原書出處: Feagan, B. G., Kahrilas, P. J., Jalan, R., & McDonald, J. W. D. (Eds.). Evidence-based gastroenterology and hepatology (4th ed.). John Wiley & Sons. http://doi.org/10.1002/9781119211419
控制語言與自然語言索引
為文獻進行索引時使用的詞彙(下稱索引詞)並非各自獨立的個體,而是存在一定的語法(syntax)特性。也因為索引詞的語法特性,彼此間形成一個有系統的語意關係,正如同我們日常使用的語言一般,因此稱之為索引語言(indexing language)。部分學者將索引語言可分為3種:
控制/受控索引語言(controlled indexing language):使用限定的、制式的詞彙來描述文獻內容
自然索引語言(natural indexing language):使用文獻中出現的任意詞語描述文獻內容
自由索引語言(free indexing language):無論文獻中是否有出現,使用任意的詞彙描述文獻內容
所謂的控制索引語言,是指資料庫根據文獻內容,轉化為辭典、詞表或是資料庫索引典(thesaurus)中的詞彙來描述。這些「詞彙清單」是根據專家學者的審定編輯而成,除了規範詞彙格式、指引參照關係,並且按照一定規律排列外,甚至還會顯示詞彙間的廣狹義關係,以呈現完整的知識架構。自然索引語言與自由索引語言,無論從文獻檢索者或資料庫使用者的角度上,其本質都是根據任意、非規範的詞彙來描述該文獻,因此實務上往往將二者並稱為自然索引語言,以區別控制語言。
自然語言與控制語言索引各有其優缺點。自然語言的優勢,能夠直接使用文章出現的詞語作為索引詞,以節省索引工作投入的成本,同時既可避免人為的索引錯誤,又可直接將文章中出現的新興詞彙設為索引詞,讓使用者能夠即時查找有關文獻。然而另一方面,面對隱含在文章中、而沒有明確書寫的主題概念,便可能會因此漏失。
控制語言因為經過人工的管理,因此能夠解決很多自然語言的語意問題,例如同義詞、同形異義詞,或是外語詞彙的單複數、時態語態變化。此外主題概念之間的相近、相反、廣狹義位階等關係,在編纂詞彙清單時便一併經控制,因此在檢索資料時也可運用這些關係來擴展自己的檢索結果,有效地掌握相關概念文獻。但控制語言的缺點包含詞彙更新速度慢、可能會有人為誤引情形,以及對使用者不友善,意即資料庫使用者未必熟悉某一概念最終被控制的格式。無論是只採用哪一種索引語言都可能造成不便,因此目前有些電子資料庫採用混合式的索引方法,使用者能夠自由輸入檢索詞彙,而後經內部比對到控制索引詞,進而檢索出相關主題的文獻。
很多領域有其領域內通用的控制詞彙,一般稱為主題詞表或標題表,例如圖資領域的中文主題詞表、席爾氏標題表(Sears List of Subject Headings)與LCSH(Library of Congress Subject Headings,美國國會圖書館標題表);工程領域的SHE( Subject Headings for Engineering,工程學標題表);醫學領域的MeSH(Medical Subject Headings,醫學標題表)。有些資料庫也有其專用控制詞表,如醫學領域的Embase與Emtree,或是護理領域的CINAHL與CINAHL Subject Headings,都是專屬於該資料庫的控制詞彙表。本文接下來將簡介MeSH、Emtree以及在資料庫中如何查詢控制詞彙。
MeSH
MeSH是由美國國家醫學圖書館(National Library of Medicine)負責建置與修訂的控制詞彙表,以作為生物醫學文獻主題內容的分類依據;除了用於醫學圖書館的館藏目錄,也用於MEDLINE等資料庫的文獻索引。使用者可以從PubMed首頁左下角連結到MeSH資料庫進行查詢。
圖2 PubMed首頁與MeSH資料庫入口
MeSH主要有三個部分:主要標題(main headings)、副標題(subheadings)、supplementary concept records(SCR)等。主要標題代表一個概念的統一用語,在MEDLINE資料庫中,每一篇文獻會經過專家解析,並給予數個適當的主要標題來描述文章內容。副標題依附於主要標題,用於補充細節,讓該標題能夠細分、表達更精準的概念。SCR主要是各類物質與藥物的詞表,同時也包含程序(protocols)名詞、病原體名稱或是罕見疾病。
要確認一個詞彙是否為MeSH terms,可以從MeSH資料庫首頁的搜尋欄位輸入,系統便會比對並引導至指定的MeSH terms紀錄,或是呈現相似概念的搜尋結果。以骨癌為例,隨意輸入"bone cancer",會直接引導至"Bone Neoplasms"的頁面(如圖3),代表在MeSH資料庫中是以bone neoplasms代表骨腫瘤。
圖3 MeSH term紀錄頁面:定義與副標題
在每一個MeSH terms紀錄頁面中提供簡單定義,讓使用者能了解惡性骨腫瘤的意涵。副標題的清單則用於修飾,以更精確的表達與骨腫瘤有關的概念。例如以"Bone Neoplasms / nursing"表示骨腫瘤的護理議題;"Bone Neoplasms / diagnosis"代表骨腫瘤的診斷。這樣的機制有助於更聚焦地表現文獻的主題。此外在頁面中有"Entry Terms"的段落,標示出與骨腫瘤有關的同義詞及相關格式(如右圖4)。在使用MeSH資料庫搜尋時,這些Entry Terms便提供比對管道,即使使用者以cancer表達癌症,也能連結到此筆紀錄。
MeSH terms之間存在廣義與狹義的語意關係,在資料庫中則以樹狀結構呈現,從16個大類開始逐層展開,各大類細分為下層主題,而後漸次細分並形成一個龐大的階層體系。在上層的標題,其涉及的意涵較廣,越往下層其概念就越專指。而每一筆MeSH紀錄中也會呈現該詞彙在MeSH體系中所屬的位置,以及其上位詞(廣義詞)和下位詞(狹義詞),如圖5。
圖4 MeSH term紀錄頁面:Entry Terms
圖5 MeSH term紀錄頁面:樹狀結構與上下位詞
根據左圖5,bone neoplasms這個詞同時隸屬於兩條「分支」:
disease category(疾病)➝ neoplasms(腫瘤)➝ neoplasms by site(依照部位劃分)
disease category(疾病)➝ musculoskeletal diseases(肌肉與骨骼疾病)➝ bone diseases(骨骼疾病)
前述詞彙即bone neoplasms的上位詞。而在bone neoplasms之下則有adamantinoma(造釉細胞瘤)、femoral neoplasms(股骨腫瘤)、skull neoplasms(顱骨腫瘤)與spinal neoplasms(脊椎腫瘤)等下位概念。上下位的詞彙關係則可運用於資料庫檢索,如PubMed預設的查詢邏輯,便會自動將下層的狹義詞帶入查詢。換句話說當使用者採用"bone neoplasms"進行搜尋,系統會自動查詢脊椎、顱骨等不同部位腫瘤的文獻,幫助使用者更周全地找到相關文獻。
Emtree
Emtree是Embase資料庫專用的控制詞彙索引典,由愛思唯爾公司進行維護及修訂。相較於MeSH,Emtree的詞彙種類更多元,除了各類疾病及生物學的詞彙外,還包含更多藥物、醫療儀器等用語。同時Emtree不僅包含了所有MeSH terms,在條目數量、同義詞等規模也更為龐大。想要查詢Emtree,可以從Embase資料庫的首頁右上角進入。在頁面中間的搜尋框可以直接輸入欲查詢的詞彙,也可以依照層面分類逐層瀏覽(如圖6與圖7)。Embase會隨著使用者輸入的字即時比對並提示可能的Emtree,在進行搜尋的同時也可以參考系統提示的其他字詞,以擴展使用者的檢索,請參考圖8。
圖6 Embase首頁與瀏覽Emtree連結處
圖7 Emtree查詢介面
圖8 於輸入時自動提示Emtree的機制
在圖8中可以看到,搜尋結果詞彙有灰色與黑色2種顏色。淺灰字代表使用者使用自然語言輸入,而該詞彙並不是Emtree選用的字;另一方面黑字則代表正式收錄於Emtree的詞彙,並且使用"use:"做為引導。以上圖為例"bone neoplasms use: bone tumor"意即在Emtree不以bone neoplasms、而是使用bone tumor表示骨骼腫瘤。除此之外,Embase會將一些新興詞彙標記為candidate term,類似Emtree候選詞的概念。例如圖8下方的bone neovascularization(骨骼血管增生)目前仍沒有適合的Emtree可以對應。
Emtree與MeSH一樣,使用樹狀結構表現Emtree terms之間上下位(廣狹義)的關係(如右圖9)。以bone tumor為例,依序為"diseases"、"physical disease"(生理疾病)、"physical disease by anatomical structure"(依據解剖構造劃分)、"musculoskeletal disease"(肌肉與骨骼疾病)、"bone disease"(骨骼疾病)、"physical disease by etiology and pathogenesis"(依據病原與發病機制劃分)、"neoplasm"(腫瘤)、"neoplasms subdivided by anatomical site"(依據生理部位劃分)、"locomotor system tumor"(肌肉骨骼系統腫瘤)等上位詞,以及各種骨骼部位的腫瘤作為下位詞。進行搜尋時輸入"bone tumor",系統便會同時將下位詞帶入搜尋,增加檢索的周全性。
在Embase系統中,每一筆Emtree term也有相對應的同義詞,詞彙數量相較於MeSH更為龐大,讓系統能夠更容易比對搜尋詞彙與Emtree term。在系統中直接查詢Emtree,同義詞便會顯示在頁面下方(如下圖10)。
圖9 Emtree term頁面:樹狀結構與上下位詞
圖10 Emtree term頁面:同義詞
結語
每一筆文獻收錄於資料庫之前,會先經過索引工作,根據主題給予相關的索引詞彙,資料庫系統再透過比對使用者輸入的搜尋詞與索引詞彙,將符合的文獻呈現出來。並且隨著索引詞來源的不同,可分為自然語言索引與控制語言索引。控制語言索引在資料庫中又稱為索引典,索引典中除了呈現概念制式的表現形態外,還會展現同義詞以及上下位詞,用以輔助使用者檢索。在醫學領域中有二大控制語言索引──運用於MEDLINE的MeSH與Embase的Emtree。本文透過二種索引的查詢方式簡介,讓讀者對於控制語言索引有基本的認識,在之後的文章中則會介紹如何將其用於檢索實務。
參考資料
陳友民(1995)。索引。於胡述兆主編,圖書館學與資訊科學大辭典。漢美。http://terms.naer.edu.tw/detail/1681766/
陳昭珍(1998)。控制詞彙與非控制詞彙主題索引問題之探討。圖書館學刊,13,頁103-128。
黃慕萱(1995)。索引與索引法。於胡述兆主編,圖書館學與資訊科學大辭典。漢美。http://terms.naer.edu.tw/detail/1681762/
顧敏(1995)。字彙控制索引法。於胡述兆主編,圖書館學與資訊科學大辭典。漢美。http://terms.naer.edu.tw/detail/1682822/
Das, U. (2020). Indexing language: concept types and characteristics [PowerPoint slides]. SlideShare. https://www.slideshare.net/DrUtpalDas/indexing-language-concept-types-and-characteristics
Haider, S. (2017, March 5). Indexing Languages. Librarianship Studies & Information Technology. https://www.librarianshipstudies.com/2017/03/indexing-languages.html
若有任何問題,歡迎來信至 medref@libmail.lib.ncku.edu.tw,謝謝您