Trending: the promises and the challenges of big social data

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

Manovich, L.(2011). Trending: the promises and the challenges of big social data, in

M. K. Gold (Ed.). Debates in the Digital Humanities. Minneapolis, MN: The University of Minnesota Press. [Online] Available at: http://www.manovich.net/DOCS/Manovich_trending_paper.pdf (15 July 2011).

導讀者：鄭宇君

原作摘要：

Manovich是當代重要的科技哲學家與軟體研究領域的創始者，他是UCSD視覺藝術系的教授，所主持的軟體研究實驗室正在處理大量藝術資料視覺化之研究。本文是他對於新興的big data概念如何應用人文與社會研究所提出的看法，對於人文社會研究者而言，當中充滿機會，但也要小心其限制。

本文主要探討在人文及社會科學領域中的鉅量資料之使用所帶來的理論及實務議題，作者將討論有關少數人的「深度資料」(‘deep data’ about a few people)與多數人的「表層資料」(‘surface data’ about lots people)之間的差異、如何進用傳輸資料(transactional data，如：某照片在何時何地上傳)、以及在資料專家與未經資科訓練人文研究者之間新的「資料分析落差」(data analysis divide)。

作者特別指出，電腦運算與人文研究所收集到的深層資料，是二種截然不同的資料內容，必須要懂得如何問出新型態的問題，才能擴展你的研究方向。

重點整理：

Big data的興起

近年來，Big data成為流行媒體、商業、資訊科學與電腦產業經常用的詞彙。但資科所言的big data意指，整體資料量超過一般軟體工具可以進行撈取、管理與處理的量；然而，對人文與社會科學而言，重點在於big data如何改變了研究版圖，有什麼新的、計算的研究方法是研究者可用來搜尋、分析與瞭解日常事務的工具？自2008-2009年起，美國國家研究計畫(NEH)開始運用高效電腦運算進行數位人文研究，包括對於十八世界思想家、地圖、文件、影像的分析，及其與十九世界美國鐵路、犯罪資料的關聯，資料量共約1.27億字。

然而，即使是在這個架構下最大型的計畫，它的資料量實際上遠小於電腦科學家所言的big data，它們幾乎可用一般桌上電腦進行分析，而不用高速電腦。可是，這個差距在今日數位媒體UGC生成的時代消失了，每天在網路上產生的資料量遠大於將過去的文化遺產數位化所得的資料量。

本文主要探討在人文及社會科學領中的鉅量資料之使用所帶來的理論及實務議題，作者將討論有關少數人的「深度資料」(‘deep data’ about a few people)與多數人的「表層資料」(‘surface data’ about lots people)之間的差異、如何進用傳輸資料(transactional data，如：某照片在何時何地上傳)、以及在資料專家與未經資科訓練人文研究者之間新的「資料分析落差」(data analysis divide)。

Big data與人文社會研究的關係

作者首先介紹在人文及社會科學研究中的多數人的「表層資料」與少數人的「深度資料」的兩種取徑，前者意指人口統計學等量化研究、後者意指心理分析、文學研究、詮釋學等質化研究。介於這二種方法論中間的，則是統計學與抽樣的概念。

作者舉了AC尼爾森的收視率調查為例，但研究者也無法讓這些受訪者實際填上每小時實際在做的事，這些細節根本無法掌握。然而，社交媒體的興起，人們自願把社交、文化活動過程公開出來，像是在網路張貼相片、留言等。這對於研究者是項契機，是否我們可以再也不必在資料規模與研究深度二者之間擇一呢？Latour(2007)將這些數位現象稱為：「我們的想像都將留下數位線索。」

在更早之前，MIT Media Lab Eagle & Penland (2005)根據這個想法建立一個實驗計劃稱為「現實探勘」（Reality Mining），並在網站說明他們如何收集人們真實行為與傳播的資料之細節，他們認為透過手機可以創造二十一世紀的社會學。為了實踐這個想法，他們用置入特殊軟體的Nokia手機給一百位MIT學生，使用這些手機九個月，大約產生相當於六十年的「每日人們行為的連續資料」。

今日許多電腦科學家都在處理這些大量的社會資料組，他們稱這個新興領域為社群運算(social computing)，根據他們的定義（IEEE, 2011）：社群運算意指「對於社會研究與人文社會動態的計算使用，正如ICT的設計與使用納入社會脈絡的考量」(computation facilitation of social studies and human social dynamics as well as design and use of information and communication technologies that consider social context.)。

而Google搜尋也是，雖然它未提供服務讓使用者分析這些資料模式，但可以想見，它的內部亦進行集體智慧空間的研究。

在此，回到最初的提問：Big data不只意謂著更多，更多本身就是不同(More isn’t more. More is different)：所有這些看法存在嗎？看來確實如此。那麼這些論證會是錯的嗎？我們的確目睹了深層資料與表面資料鴻溝的崩裂嗎？這個崩裂對社會及人文研究開啟了新紀元嗎？

Manovich對於Big data的四點看法：

上述這四個目標是作者將討論的，但這並非意指的我們不應該用新資料來源來做人文與社會生活研究，也不是不要用計算工具來分析它。作者強烈認為，我們應該這麼做，只是需要更小心地瞭解在實作中可能發生的事，也必須更清楚知道數位人文學家所需的技術是什麼，如何從人文資料的新角度獲益。以下是他提出的四個論點：

1. 只有社交媒體公司能接近真正大量的社群資料，特別是傳輸資料（使用者上傳與下載資料的時間與地點）。為Facebook工作的人類學家或為Google工作的社會學家也可以近用資料，其他學術社群則無法近用。

2. 需要小心地解讀社交網絡與數位足跡中的傳播活動，做為一種「本真的」（authentic〉形式。人們的貼文、tweets、上傳照片、意見與其他形式的線上參與，並不等於是他們自我的透明櫥窗；代替的是他們通常很小心地展集或系統化地管理這些事物。因此，我們不妨把這些社交媒體視為人們向世界現身的一個界面，某些來自他們的真實生活或者想像，所投射出的一種特殊形象。

3. 「我們是否真的可以不必在資料規模與研究深度二者之間擇一呢？」這句話是否成立？作者認為Yes and no。他指出，長期進行社群觀察的人類學家與挖掘大量社群資料(deep surface)的電腦科學家，他們所接近是不同類型資料、問不同的問題、注意不同模式，最後獲得不同的Insights。

作者以他們實驗室分析大量電影資料與Flickr藝術照片群組的經驗為例，說明電腦運算可以在大量資料中找出文本內容所具有的模式，但並不能取代人類專家，還是要靠人的能力來理解與詮釋電影文本的意義。

作者進一步舉例說明較佳的合作樣式：假如你要研究某國家在某一段期間內上傳的所有Youtube影片類型，結果找出了100萬部分影片，接下來可以怎麼做？電腦運算可以幫你標定資料的整體景觀：自動將影片分成幾個類目，並指出各類目最典型(typical)與最獨特(unique)的影片，循著同樣策略做完一遍，最後你會從100萬部影片縮小為幾種類型的影片，然後再從當中進行標準的抽樣程序，同時分析每類型中的最典型與最獨特影片，實際觀看它們。來回幾次之後，你可以逐漸掌握這些影片特徵。

4. 想像你擁結合大規模自動化資料分析與互動視覺化的軟體1，假如你也有技術進行個別文化物件的分析，並開放地去問新問題，那麼這個軟體可幫你將研究帶到新方向。然而，這當中需要電腦科學家、統計學家、資料探勘技術的協助，但通常人文研究者不會懂這些，這是另一個鉅量資料之人文與社會研究所需面對的課題。

Big data的產生與近用

在鉅量資料社會裡的三種資料階級：製造data的人、有方法收集data的人、有專業分析data的人(意指Google、Youtube裡的資料科學家)。儘管有一些相關公司提供社交媒體分析服務，但它們需要收費來幫你分析資料，其目標客戶主要是廣告或行銷業主，但他們不想讓客戶直接近用資料（換言之，你付錢問問題，他們給答案、但不會給你資料）。另一種服務是讓客戶將自己網站的表現與總體平均比較，它們會給出建議說明你的網站應改進之處，但同樣地，公司只提供總結式的摘要，而不開放實際數據給客戶。在這些商業領域之外，政府部門也開始收集資料。地方政府成為資料供應者，可是他們的資料大多數是統計摘要，而非傳輸資料（人們線上行為的足跡）。

對於大量傳輸資料進用的限制，是今日資料趨動之社會科學與人文研究不容易做的原因。另一個關鍵原因則是在於一個鴻溝：如何用對的軟體工具、對的資料能做什麼，電腦科學家與高階統計學家沒有這方面的知識，假如你有這些知識你就能做。例如：假如你有古騰堡計畫裡所有的數位圖書，你想用軟體分析過去數十年來的主題變化，你要有電腦語言文本探勘的知識。或你要分析社交媒體資訊擴散，你要懂得用Twitter API或第三方服務來收集這些資料，但你也有要正確的背景知識與訓練。如：2010一群南韓電腦科學家分析Twitter到底是社交網絡或新聞媒體？他們收集了當時大量的Twitter資料，發現85%的流行話題是頭條新聞或自然界一貫的新聞。

結論

有些重要議題在本文未處理，是因為它們仍在爭論中，如：隱私，我們可以信任研究者擁有所有你的傳播行為資料嗎？因此Manovich只指出以上四點。

那麼，到目前為此，我們可以說：鉅量資料所掌握的表層資料是新的深度嗎（surface is the new depth）？就理論上而言，答案是肯定，只是你必須記得那是二種不同內容的深度資料（另一種是指人類學、文學研究）。但在實際上，在這個命題成真之前仍有許多障礙。然而，我們已經有些可以用的工具，假使你懂得一點程式或資料分析，也能開放地去問有關於人類社交生活與文化經驗的新問題，那麼機會是無窮的。鉅量資料人文研究的模式之所以存在，是在於人文學者與電腦科學家之間的協作。開始「向資料挖掘」是一條正確的路，我們想要人文學者在日常工作也能用資料分析與視覺化軟體，如此他們才能結合質化與量化取向，至於如何使之發生就是數位人文的關鍵問題。