The web and digital humanities: Theoretical and methodological concerns

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

Brugger, N. & Finnemann, N. O. (2013). The web and digital humanities: Theoretical and methodological concerns. Journal of broadcasting & electronic media, 57(1), 66-80.

導讀者: 區國強

原作摘要:

        1990年代開始,網際網路逐漸成為社會文化研究的重要資料來源。許多國內或國際的網路檔案資料庫紛紛成立。本文將探討網路資料(Web materials)以及網路檔案資料(archived Web materials)的不同特性。我們認為,這些特性與數位人文架構(framework of digital humanities)下發展的數位素材(digital materials)有所不同。本文提出,數位素材與處理方式之多樣性需要電腦之再詮釋(reinterpretation),並強調數位媒體功能性架構(functional architecture of digital media) 之多變性特質。


重點整理:

一、前言

        網際網路取代了電視,成為了當代社會的重要溝通架構(communicative infrastructure)。對社會科學、人文學,以及藝術研究而言,網路也成為了(1)當代生活的資料庫;(2)數位內容研究之工具箱(包括數位化或非數位化素材);(3)社會中重要的溝通方式。本文將針對(1)來進行討論,也就是探討網際網路作為學者研究當代政治、社會以及文化現象時的重要公開資料來源。但是,網際網路作為研究工具也出現一些難題,包括網路資料的保存和紀錄問題(例如網路最初發展時的網路資料已經找不到...)、網路資料的多樣性(公開/半公開/非公開),以及網路原生資料與網路檔案資料(注:原本為實體,例如紙張公文,後被做成數位檔案存於網路),這些都將是本文的主要討論對象。 


二、數位人文與數位素材:從一致性的電腦概念(idea of uniform computers)到數位媒體

        數位人文檔案資料之發展,經歷了三個歷程:(1)1950和1960年代,以大型電腦將資料進行計算和數位化;(2)1980年代,以個人電腦發展人機互動以及將電腦當作是工具箱;以及(3)1990年代,數位媒體之發展。在(1)和(2)中,數位人文主要以「單機作業」之方式發展,而在(3)中,網際網路逐漸成為重要元素。

        在以往的發展歷程中,網際網路主要被當作是展示、散播與溝通的平台,其重要性一直被忽略。本文認為,對數位人文來說,網際網路將改變我們對電腦或數位化之理解;未來數位人文不只是使用電腦去進行運算而已,更要求新檔案技術之多樣性與適應性。在建構未來檔案資料庫架構時,將面臨電腦資料在軟體和硬體上,以及電腦語言演算法上的相容性問題。或者說,「數位人文」雖然是將資料轉化成1和0的數位資料,但到底如何「數位化」,以及在網路環境中,如何進行有彈性的「數位化」,都是研究者將面對的新難題。本文認為,對學術研究來說,數位人文所引起的「效度」難題,值得注意。


三、數位媒體 -- 一種獨特的數位原生素材(Web materials -- a particular set of digital born materials)

        在以往,數位資料體(digitized data corpora;簡單來說,指可被電腦程式處理和尋找的資料)作為數位人文的重要素材,其資料具同質性特質,主要為特定研究者以特定格式所定義。這些資料原本大多不是數位資料,而是「後天」加工轉成數位格式。但是,在目前網路時代,許多資料本身就是「原生數位資料」(digital born materials),或從一開始就是數位語法所編寫,與以往的數位資料有所不同。

       另外,網路上出現一種狀況:不同內容提供者的資料格式或架構經常有所不同,造成後來的研究人員研究和管理(archiving)的困難。而且值得注意的是,數位資料雖然從實體資料(例如,書面文字資料)轉化,但轉成數位資料後,其物理形狀(physical manifestation)已經改變(區註:例如,一本電子書實際上已經不再是一本物理意義上的「書」)。


(一)網路資料之主要特性

以下為幾個網路資料的重要特色:

超文本(hypertext)

      超文本原本指不同節點之間的連結組合,到了當代,超文本已經成為網際網路的重要特性。超文本的連結方式可分為多種,包括「空間」上,不同網頁之間的連結、「時間」上資料的不斷更新(區註:例如原本的新聞報導下,只有一則相關報導的超連結,隨時間和新聞事件發展,超連結數逐漸增加;或透過新的「作者」加入,豐富原本的超連結數)。

      另外,超連結又可分為:作品內之超連結、作品之間的超連結,以及元素之間的超連結。此外,又可分為「組合性瀏覽」(associative browsing)以及「目標性引導」(goal-oriented navigation)。若從連結之動機來源去分,則可分為由作者所建議的超連結,以及由使用者(讀者)所選擇的超連結。

      除此之外,搜尋也可被視為是一種超文本之形式。使用meta-tag的搜尋方式也是一種超連結方法。作者主導的超連結方式(author-defined utilization of hyperlinks)則可以透過菜單(menu links)來進行。

       1990年後,網路上的超文本關係已經打破了以往「書本」的層級架構,但事實上,超文本也是為了應付越來越龐雜的網路素材而採用的一種必備工具。


互動性(interactivity)

        互動性最開始發展時,就是讓使用者在網頁上發表意見或評論,後來逐漸發展出論壇、即時通訊、狀態更新,以及網路推文等形式。在過往研究中,已經有許多研究者從社會學、人機互動,以及電腦中介傳播等角度探討互動性的相關問題,但有關互動性的功能架構(functional architecture)卻被忽略。這些問題包括網站架構的變動性(是否允許或禁止使用者改變)、網頁服務的客製化,以及是否限制網頁的連結數量等問題。值得注意的是,網站的超文本與互動特性,事實上影響了素材之間的關係,也影響了資料的呈現。

多模式傳播(multimodal communication)

        在未來,除了文字外,靜態圖片、圖表,以及動態影片將也成為網站管理者必須處理的資料格式。網際網路在未來將更多動態特色。


變動性(fluctuation)

基本上來說,數位素材都是可編輯和重製的,這也是它與以往的媒體素材相比的重要特色。當資料經過編修後,它可能成為新的資料,和原本的有所不同(例如,youtube上的meme影片),而若它在使用在新的脈絡並賦予新意義後,原本的資料也可能成為了新的類型,例如FB上的狀態更新。


小結:

        以上為網路資料的一些重要特性。我們另外也需要注意網路中「地方-- 全球」以及「公-- 私」領域的接界線變得模糊,發佈者(sender)與接收者(receiver)之間的關係也改變。另外,網路素材與數位資料其實有所不同,前著透過特定界面(interface)所生產,雖然能被切割或修改,但終究是原本網路素材的一部分;後者則必須透過特定界面來取得,這個界面並非材料的一部分,而是由研究者或檔案管理者以特定數位策略去定義。


(二)方法論上的意涵(A few remarks on methodological implication)

在使用網路資料時,我們需要注意以下一些問題:

1. 網路上並沒有一個具支配地位的元數據系統(system of metadata);網站之間可能會出現不一致情形。

2. 每個研究計劃必須訂下其相關時間範圍,以保持相關資料(the relevant materials)的穩定性。

3. 要確認什麼是相關資料,本身就是一個難題。例如,研究「民意」的人,在以往可以透過主流媒體等理解「民意」,但什麼是可以代表「民意」的網站和資料呢?


四、網路檔案資料庫(archived web) 之特色與挑戰

網路檔案資料庫可能是大型的(例如,國家圖書館),也可以是因特定研究目的而建立的小型資料庫。以歷史研究為例,大型並以網路資料為內容之檔案資料庫有以下特色:

網路資料庫是即時(real-time)資料庫。要達到上線(online)要求,資料庫必須隨時更新。

網路資料庫的檔案,不只是原本網路資料(例如,某新聞網頁)之拷貝而已,更是再生(但可能不完整)的資料。這牽涉到許多問題,包括:什麼該被紀錄歸檔?什麼可以略過?哪一種檔案軟體和策略比較適用?如何處理歸檔過程的更新問題?如何讓資料在網路上能被取用?總之,我們似乎無法以1:1比例將所有網路資料建檔,必須作出抉擇。因此,我們稱這些資料為「再生」(reborn)的。在不管時間或空間的維度上,網路資料庫是多版本的,我們需要找出方式處理版本的問題(儲存所有版本?特定版本?)。網路資料庫需要具備反應能力(to be reactive)。也就是說,電腦技術發展過程中,將不斷出現新的檔案格式或軟體程式,網路檔案資料庫需要找出方法去讓資料庫與外界「同步」,克服各種新格式等問題。


四、分析與方法上的影響

網路檔案資料庫尚有以下難題:

有些東西不見了

        與原本的網路內容比較,資料庫的資料可能顯得不完整。這包括:與線上網路相比,資料庫遺漏統計數字、排名等資訊(這牽涉到資料可能已經不在線上的原因);資料庫中可能遺漏相關的影音、圖片,或超連結等詳細資訊(這則牽涉到建檔策略問題)。不過,更重要的是,我們可能根本不知道資料是否完整,或到底是否遺漏了什麼!因為與數位資料相比,網路資料並不穩定,有時候,「資料不見了」是不需要原因的。因此,要讓人有信心地使用網路資料將是研究的難題多重的異質性與複雜性

如同前面提過,網路資料非常龐雜,當時間越久,這些資料將更複雜(要建立越長期資料的檔案,問題越多...)。


超連結出現不一致

網站上的超連結可能會出現改變(例如,今天網頁上連到A網頁,明天改連到B網頁),建檔方式也可能遺漏了紀錄超連結之資訊,結果造成資料的不一致。(難題:根本無法知道是否有遺漏 ... 可能研究方式:進行有關超連結的「歷史」之研究)


可被編輯(能被編輯)的網路檔案資料庫

        網路檔案資料庫之可編輯性有兩種意義:(1)資料本身之可編輯性/改變性;(2)當資料從資料庫中取用時,可以形成新的分類/組合形式,以供研究者使用。(區註:這裡應該是指,如果與電視台的新聞資料庫比較,網路素材沒有明顯的時間地點特性,存檔時難以完全以日期、播出時間、節目單元等去分類,因此造成時空分類上,網路素材比較複雜/混亂,而當研究者再重新整理或取用時,就已經重新組合了原有的素材,而不是這些素材「本來」的樣子。)


整體的網路檔案資料庫之雙重建構(an archived web corpus is a double construction)

        若將網路資料當作整體的對象(corpus)來研究時,必須注意要同時收集兩種資訊:網站的URL和各個特定版本的URL。但由於網路資料會不斷更新,因此將是研究者之一大難題。


缺乏後續處理

        對傳統大型資料庫的管理者來說,他們的工作主要是收集資料,而且由於資料太龐雜,因此大多沒有辦法再進行很仔細的後續整理和分類工作。對研究者而言,面對龐雜資料,只能透過metadata或log file來使用這些資料(當然,前提是資料庫有提供這些資訊)。


網路檔案資料庫之間的相互操作性(interoperability)難題

        研究者若要透過不同國家或地區的網路資料庫的資料進行研究,可能會遇到不同資料庫建構方式不同而造成資料在分析與研究方法上的難題(區註:例如,A國資料庫很完善,B國很粗糙;或兩個建構資料之方式不同)。因此,如何銜接各種網路資料庫, 並讓他們具備相互操作性,將是未來的重要挑戰。


五、結論與討論

        除了以上所提到的難題外,數位新技術與服務(例如,行動裝置、物聯網the internet of things,以及商店線上服務等)將讓原本已經龐雜的網路資料便更複雜。因此,到底採取什麼樣的存檔策略,將是網路資料庫管理者的重要議題。

        另外,FB等社群網路發展後,儲存了大量的半公開(半私人)資料。在一些社群網路流行的國家或地區中,社群網路與使用者之日常生活已經連結一起,這些都是未來的歷史研究者研究我們當代心靈史的重要資料。但是,要如何保存這些資料,將遇到技術、法律,以及倫理上的問題。

      此外,建立網路資料庫時,不只是如何保存資料和保存什麼資料的問題,更牽涉到到底我們能夠取得什麼樣的資料的問題(What is actually possible to get)。除了以上曾提到超連結的複雜性問題外,我們也缺乏諸如使用者的登入資料以及使用模式等資訊。這些都是我們想要探討使用者網路使用行為時重要的資料。

       但無論如何,為了讓未來的歷史學者寫下我們當代的歷史,網路資料庫將非常重要。我們一方面要設法提供他們能詮釋的資料外,另外一方面也要記住:網路上的資料將會逐漸消失,所以必須把它們保存下來。

摘要_The Web and Digital Humanities.docx