Big data: methodological challenges and approaches for sociological analysis

Tinati, R., Halford, S., Carr, L. & Pope, C. (2014). Big data: methodological challenges and approaches for sociological analysis. Sociology, 48(4), 663-681.

(附註:通訊作者Halford任職於英國Southamption大學社會與社會政策所) 導讀者:區國強

原作摘要:

 

大數據之出現為社會研究提出了機會與挑戰。本文提出這樣的機會受制於社會科學研究的方 法應用,並使研究者們低估了大數據所可能俱有的重要特質(這不只是有關社會網絡與流動 的關係而已)。本文以Twitter作為討論對象,規劃了相對于以往研究不同的對待資料的方法 原則,另亦根據這些原則提出新的探勘(harversting)與分析Twitter工具。本文的Twitter資料 有關英國大學學費的政治抗議事件。本研究超越了過往方法上的限制,為探究資訊流動

(flow of information),與在此流動中,行動者以及網絡之形成(emerge)提供了原創的洞 見。

 

關鍵字:

Big data, information flow, methodology, networks, Twitter, Web Science … wide data

 

 

重點整理: 前言~

大數據之資料規模龐大,需要非一般/非標準化(non-standard)的計算與軟體技能來 處理這些資料。除了量以外,研究者也把注意力放在撈取某平台(e.g.Twitter)或某場域

(e.g.公共事業資料;utility records)之「所有」資料組(whole’data sets)。這些資料是動態 的,它捕捉了即時與持續的社會活動,也提供了透過訪談與調查所難以搜集,人們在「原野 中(in he wild)」所做什麼與說什麼的資料。這些資料的數位本質也開啟了許多資料探勘與 資料結合(linking)之可能,不同資料可連結一起形成關聯性。

 

但大數據也提出許多挑戰,包括倫理上的議題。有人對其開放性感到樂觀,也有人擔 心這些瞬時即逝的資料在本質論以及知識論上能代表與宣稱什麼。而且,大數據也存在內容、 結構、擁有權與可取得性(availability)上的議題,由於隱私與商業原因,這些資料多存在 政府與私人企業手上。

 

相對來說,Twitter是開放性的大數據資料對象,只要透過銜接其API研究者得以取得

(1)透過Search或Streaming的服務取得一小部分的推文(a small selection of the tweets);(2) 透過“Garden Hose”可取得約10%的隨機樣本;(3)透過 “Firehose”可取得所有的推文。 不意外地,Twitter成為許多社會科學家的研究對象,從2008到2012年10月(根據IBSS),就 已經有超過110篇有關Twitter的學術論文。不過,這些論文很少發表在主流社會學期刊,但 就這些論文來看,其主要興趣面向有關印象管理(impression management),小名人(micro- 卻celebrity)、個人品牌(personal branding),以及參與式政治與政治動員之議題。

 

在過往研究中,為了讓資料能抵被管理(manageable),許多研究主要是以小規模的 內容分析(觀察一小群使用者),或大規模的隨機/立意樣本來進行。但這種為了讓資料得 以被管理的研究方式,卻繞過(bypass)了大數據大規模資料的特性,或透過抽樣將某種外 在結構強加上資料上。而且,很多研究都是快照式(snapshot)地分類內容與使用類別,而 沒有按照資料動態的發展特性去處理,也沒有探究構成Twitter的社會網絡之本質。


社會學與方法學上的挑戰~

 

近年使用者產製內容在網路平台興起,成為人們生活一部份,也引起社會學者的關注。 在後設層次(meta-level)上,諸如Twitter的網路平台象徵著「社交作為社會」(social as society;也就是說,至少是有國家邊界的「社會」)到「社交作為流動」(social as mobility) 之轉變;後者有關人、物、影像,與資訊的動態流動之浮現。Castells(1996)稱之為「網絡 社會」(network society)。在其中,資訊(現在變成了最關鍵商品)在個人與團體的鬆散連 結中流通於時與空之中,形成並再度形成(form  and  re-form)某些流動身份/液態身份

(fluid identities)與連結;這些身份與連結在過往是受制於地點、時間、階級、性別,與種 族等限制的。以此角度來看,如Urry(2000)所說,網路不是反映出社會,而更是形塑或甚 至生產了社會。Latour(2006)提出,社會(social)在日常實踐中被聚合(assebled),並構 成多重國度企業與異質、不平均、動態的「全球流」(global fluids)的全球網絡(global networks);這網絡有關人、資訊、物、金錢、影像與危機以驚人速度和難以預測之形態混 亂並跨地域的移動。Urry說,這些「流」(fluids)沒有清晰的出發與到達,沒有一定必要的 結束狀態,並且其特色為浮現、沒有意圖,與非線性結果的(emergent, unintended and non- linear consequences);而對社會學來說,作為一們學科,必須找到更好的探究方式。

 

Big data在一般意義上,能以Twitter作為例子,讓社會學者以經驗研究方式進行探究。 這不只是因為Twiiter資料的取得性而已,還包括我們能看與跟蹤到其中使用者間的對話(對 比FB,若不是某人朋友,無法跟蹤)。簡單來說,在Twitter中,我們相對能夠跟蹤資訊的流 動與發展(包括,有什麼貼文被發表、retweet與加上hashtag)以及隨著時間變化的社會網 絡,作為研究與觀察之用。

 

政治科學研究者早研究Twitter在草根行動主義(grassroots activism)與參與式政治等方 面的使用現象;這些研究可能選擇特定重要的行動者(例如,政治潤)以及/或加上特定活 動範圍或之推文或使用者作為樣本(大多來說會包含某hashtag流)。對本文來說,這樣以特 定人或推文串的研究方式或角度並非不好,但我們更可以把網路本身先視作觀察與分析的起 點。不管是立意或隨機抽樣,這些抽樣過的推文資料都已經無法追溯時間中有哪些行動者與 資訊浮現之情形。而且,這樣的方式也預設了某些行動者比較重要,或預設了所有樣本中的 行動者都是同等重要的。這樣我們也就看不見網路本身如何形成。

 

Segerberg與Bennett(2011)針對Twitter上網路流動與網路連結的動態特性進行研究

(註:Segerberg A and Bennett L (2011) Social media and the organization of collective action: Using Twitter to explore the ecologies of two climate protests. Communication Review 14(3): 197–215.), 雖然關注了某hashtag,但卻沒有討論該hashtag如何被連結。

 

無論如何,如同Manovich所提出,Big Data讓那些有寫程式能力與懂得社群媒體API的 人得以更可能去問各種與社群媒體網絡之形成、政治活動,以及資訊傳布之問題。但也有人

(Savage & Burrow, 2007)提出這種新形式的資料也使社會科學研究遠離社會學,因為雖然 這些研究主要是觀察模式以及在就其本身(per se)之方式上觀察網絡結構,而不是挖掘其 中的意義或進行說明。這樣做容易把資料當成是自然產生(naturally occuring),而沒有注意 到其社會與技術構成元素。

 

另外,過去政治科學研究者探討大數據、社會網絡結構,以及其中不同行動者之間的 訊息流通活動與彼此之間的關係,但在社會學領域中卻沒有研究者從事相關研究。但實際上, Moreno人從1953年就開始以圖表理論/圖的模式(graph theory)去探討社會連結(social ies)

(區:量化 > 質性 > 圖像方法),John Scott在1998年也把社會網絡分析使用於社會學方法中

(區:簡單來說,社會學早有人關注社會網絡,但卻沒有人進行相關的Twitter研究)。Scott

(2008)指出,社會網絡分析(SNA)若能超越只是網絡結構與連結性的靜態計量(static metrics)與統計測量,將可揭露(expose)出資料的暫時性特質(temporal nature),而這一 事本文所關注的焦點。


方法~ 本研究開發一種有關Twitter資訊流與隨時間浮現的社會網絡之動態視覺化工具。這工具的開 發有幾個原則。一、從網絡開始;也就是我們排除先入為主的想法(例如,哪個行動者比較 重要,或為了使資料得以被管理而先做抽樣),而是要從持續流動的資料中觀察行動者與網 絡之結果。二、我們要抓取推文的動態流動來在網絡發展之過程同時進行觀察。三,我們要 克服研究方法上鉅觀與微觀的二元對立(polarisation),也就是要克服大數據的結構與模式 的測量與微觀互動(也就是人際傳播)之間的對立。質化方法也是本研究方法之一。

 

根據以上原則,我們發展一種電腦工具,來即時或從歷史資料中抓取Twitter上流動的 資訊。我們參考SNA的做法,測量了某些靜態特性,包括節點(nodes;也就是使用者),邊

(edge;也就是一個使用者與另外一個使用者之間的直接傳遞),in-degree(針對特定一位 使用者所產生的mention或retweet之測量),以及out-degree(該使用者對他人所產生的mention 與retweet)。此外,我們的工具也能檢驗Twitter網絡的動態特性(此工具提供了一種可調整 的圖像使用者界面來進行視覺化任務) ;此工具也能測量大規模與持續進行的流動資訊, 並且有zoom in功能來進一步檢視個人之間的溝通內容。

 

本研究並沒有撈取所有Twitter資料,而以使用者所生產的Hashtag來撈取這種從下而上 針對特定主題發展的資料流(a single stream of data)。本研究透過過濾工具對資料進行數量 減量,而所根據的是網絡中個人所展現的特色~推文的數量、retweet或被retweet的數量、網 絡中他們的連結,以及資料散佈中他們所扮演的角色。對本研究而言,retweet是特別被關注, 因為它代表了Twitter裡面的訊息傳播 。透過追蹤retweet,我們也得以追蹤資訊的流動,以及 拗出哪些推文與使用者在網絡浮現的過程中扮演重要角色。

Twitter上的政治行動主義(Political Activism)~ 過去許多研究都注意到Twitter在政治活動中扮演的重要角色,但之前的研究大多受限

於特定預設過的小樣本,或大量資料的隨機抽樣,也無法看出網絡隨時間的演變。

 

本研究以2011十一月倫敦大學生反對學費調漲為討論案例。我們蒐集了標上#feesprotest 的推文,共12831則(4737推文者,時間~10/8-11/21共44天),從推文的每日分佈中可發現 推文數量分佈並不平均。

 

超過54%的推文是retweet,18%為某使用者直接向另一使用者直接發出的推文;從這 樣情況可看到大量的資訊流動更是要針對大量一般使用者(而非特定個人)。

 

為了找出這些推文中的重要推文,我們以我們的工具(區:整篇文章從未提到他們自 己研發的工具是什麼...)將#feesprotest的推文進行過濾,留下被retweet超過100次或以上的推 文。我們也製作了網絡的動態視覺影片(並具備暫停播放功能)來觀察網絡之行程。(區: 真的追蹤到「第一篇」推文?是否可能同時好幾人使用同一#hashtag(儘管可能時間有限 後)?)

流動之中(In the flow)~ 透過視覺化工具,我們會發現只有少數推文者進行了大量retweet。在本資料中,只有

0.26%或12位個人使用者被retweet次數超過100次(區:本文過濾方式是以tweet為單位?)。

這些人並不一定是發了很多原創推文的使用者,其tweet-retweet比率為1:12。他們雖然推文不 多,但卻在資訊流動中扮演重要角色。其中四位使用者在抗議一星期前(區:根據報導,抗 議發生在11/9)已經活躍,而在11/9當天早上9點,12個之中的9個也出現在訊息散播網絡之 中;這可展現出特定持續性的關鍵人物之浮現(不過實際上,這些人也只是在整段時間的網 絡過程中鞏固他們的重要角色)。與以往研究相比,本文透過網絡本身找出這些關鍵推文者, 而這是以往針對特定人物先進行抽樣所辦不到的。


 

例外,不同mention資料也透露出不同的參與者。例如@UniversityOccupation主要為倫 敦大學學生,@AF C為那些活躍地合作抗議學費調漲的學生與工人,@P otem kin與 

@michaeljohnroberts則是草根組織。以上這些推文者也在本次事件中扮演重要角色,而這也是 以往方法(隨機抽樣)所看不見的。

 

另外,當網絡不斷擴大,重要推文者浮現後,網絡的異質性逐漸縮小(區:也就是同 質性越來越高)。Albert(1999)等人有描述過這樣的現象:總體訊息的雜訊(noise:區~ 應指異質性,觀點不同的訊息)經常被特定聲音所主導。當這些人開始發聲後(have gained a voice),他們的觀眾參加,而他們的聲量也越來越大。在本案例中,在抗議發生前,四個 個人使用者是被retweet量最高的人,但隨著網絡演變,這四個使用者被retweet量在五天之內 呈現雙倍成長。不過,整體被大量retweet的個人使用者數量卻減少,而那些已經廣被retweet 的人之聲音越來越大,儘管他們不一定發出新的tweet。圖二是抗議24小時後,原本已經有大 量的邊的節點之規模變得越來越大,出現更多的邊,網絡也越來越飽和(saturated),並且 蓋過了許多不知名的使用者與推文。(其中,有關警察暴力的推文最被關注...)

 

另外,個人推文/轉推文者之追蹤人數值得關注。若我們考慮到URL的使用,會發現 大量訊息被這些推文/轉推文者發布,影響網絡的訊息流通。(區:作者論證主要是說URL 是Hyperlink,能延伸或超越twitter140個字的限制,因此訊息散播的「量」(字數)變得更 大)

 

浮現的網絡角色~

 

除了關注那些關鍵推文者外,我們也觀察轉推文者之角色:他們透過把資訊傳開

(pass on information)而在網絡中扮演重要角色。他們就像是「擴大器」(amplifiers),透 過retweet「放大」訊息。在本案例中,@politicalweb就扮演了這種角色,成為了第一個把最 被retweet的四則訊息中的其中三則,retweet出去,並引起了這三則推文的大量傳散。不過,

「擴大器」並非什麼都retweet,而是有選擇性的(可能有關其組織,可能有關其興趣)。

 

另外,「聚集者」(aggreagator)也值得注意,他們並非第一個retweet的人,但卻不 斷retweet各種訊息,扮演了網絡中橋接(bridges)建構者之角色,讓不同的資訊聚集到同一 頻道中。例如,他們可以把#feesprotest與其本身追蹤者結合起來(區:e.g. 我有100個followers,


當我把別人已#abc為hashtag的文章繼續retweet時,那我原有的100人也看見了這個hashtag), 也可以把不同hashtag結合起來。

 

結論~

 

本文認為與原推文者相比,retweeter、amplifier與aggretator也是值得關注的角色,他們 更是形成網絡的主導論述(dominant discourse) 之重要力量。本文透過觀察這些活動,同時 顧及了網絡的巨觀結構與微觀活動,透過觀察資訊在時間軸上的流動,發現網絡之浮現可被 視為一個結果(consequence)。

 

本研究也顯示,Twitter不是一種事物,而是很多事物。Twitter既是訊息的媒介,也是 組織的方式,其中不同使用者的述說(iteration)偶然地(contingent)形成Twitter之形式。 Twitter是浮現的持續過程(ongoing process of becoming)。第一,平台本身技術上不斷演變(包 括使用者的自創用法)。第二,資訊與網絡本身也是持續演變。發文者事實上決定不了推文 的命運(fate)。

 

以研究方法之角度來看,本文只是一個開始。未來我們需要更關注推文與推文者之追 蹤者之間的關係;也就是,retweet主要是那些早有大量follower的人所產生?或,hashtag或其 他意外出現的方式形成了大量的retweet?推文者發出或轉發特定推文,是否(包括,如何) 影響他們與follower之間的關係?總之,簡單來說,retweet可能只是觀察網絡資訊流動的一種 方式而已。要更理解網絡的資訊流動,我們也需要觀察不同平台(包括FB),以及各停癌之 間的訊息流動。這可能需要透過訪談與觀察才能有更整體理解。

 

 

因此,質性與量化方法是需要結合使用的。當然,這也牽涉到隱私問題需要解決。另 外,我們也要注意,對Big data研究者而言,資料本身也是被生產出來的人造物(artefacts), 它受到平台特性、使用者使用方式(adoption),與使用者調適(adaption)之影響。也因此, 在方法論層次上,這些資料不是不證自明(self-evident),而需要更精細的概念語彙與理論 架構來進行探討。這也反映出既有社會學方法(或包括理論)之不足。如同Savage(2012) 提出,計算機科學將變得重要,社會科學需要與其他知識建立知識與技術上聯盟。

  

 參考資料

1.  有關圖的模式(Graph Model)

交通大學開放式課程

 

圖的模式(Graph Model):是指我們把所要探討或研究的問題以圖的形式來描述;例如七橋問 題中的四個區域分別以四個點來代表,而七條橋則分別代表連接某兩個點的邊;如此一來, 我們可以得到一個圖,它有四個點及七條邊;七橋問題因此被轉換成研究可否在上述圖中找 到由某一點出發;再經過全部邊而回到出發點的一筆劃問題。另外,四色定理的証明不但加 深對圖基本結構的研究更帶動了計算機科學的蓬勃發展;近代網路的設計更是有向圖發展的 最佳舞台。

 

2. 有關2014英國大學生倫敦遊行抗議政府漲學費 http://www.bbc.co.uk/zhongwen/trad/uk/2011/11/111109_uk_student_protest.shtml?c

 

英國大學生再次遊行抗議漲學費 英國大學生在倫敦舉行抗議高學費的抗議遊行,倫敦大都會警察部署了4,000名警察應對。 大學生抗議英國政府允許學費最高可以上漲到每年九千英鎊。 警察拆除了之中心特拉法加廣場上抗議學生的數十個帳篷並一共逮捕了24名抗議者。 抗議學生遊行路線原定計劃是經過倫敦金融城,與聖保羅大教堂反資本主義的抗議者會合。 去年反對大學學費漲價的示威遊行最後導致暴力事件,抗議群眾包圍辦公大樓,損壞商店, 並攻擊查爾斯王子夫婦乘坐的王室禮車。 不過周三(11月9日)示威遊行的整個過程比較和平,只出現了小規模的衝突。 反對高教改革 由「全國反學費和反削減活動」組織的學生示威抗議活動,反對英國政府將高等教育市場化 的改革政策。 活動領導人邁克爾·切森表示,「擁有百萬財富的內閣官員,要我們學生交三倍的學費。」 抗議學生在倫敦大學學院位於布盧姆斯伯裏的校園集合,然後一路遊行至特拉法加廣場,霍 爾本,再到倫敦金融城。 過去幾周以來在聖保羅大教堂外面扎營抗議的「佔領倫敦」(Occupy London)反資本主義抗 議者表示,將舉辦自己的活動向學生遊行表達支持。

 

3. 另一篇相關文章的「社會學想像」

 

Housley, W., Procter, R., Edwards, A., Burnap, P., Williams, M., Sloan, L., Rana, O., Morgan, J., Voss, A., & Greenhill, A. (2014). Big and broad social data and the sociologiclal imagination: A collaborative response. Big data & society, 1, 1-15.

… lacking of important demographic data. e.g. gender, location, class, age …

 

…COSMOS project is using census, crime and tweets to explore whether crime can be “sensed” through social data via the signatures (social media) and context (area demographics of real world events)

 

… innovation intermediaries … individuals and groups with the skills and resources to shape the use of social media as a tool for civic participation and how they orientate to achieving their objectives.

… reshaping of local civil society … local state actors/political groupings vs. local civil society

…Hate speech … 預測?

 

…citizen social science… where members of the public can assist with research, and record their beliefs and opinions at volume


…社群媒體資料之取得掌控在商業經營者手上

… 有關Big data的「責任化」(responsibilization;Garland, 2001)與節點管控(nodal goverance;

Shearing & Wood, 2007)研究?

   

討論問題

1.    作者說要打破抽樣,但以Hashtag蒐集資料不也是另一種形式抽樣?

 

2.      作者提到,Original tweeters cannot know the fate of their posts, whether they will capture a wider imagination, or be selected by the influential retweeters and aggregators,你同意嗎?

 

3.    研究url的新角度?url真的有被點閱?被分享的url之分享/讚數目?url作為內容傳播?作 為另一種「標題」?

 

4.    作者不斷強調Retweeter可能比tweeter重要。發想~研究佔中重要retweeter(黃之峰)post 了多少,retweet多少?浮現的社交網絡 >>> 浮現的訊息複製/再製網絡

5.    Housley提到,研究Big data,要同時關注傳播媒介與媒材特性。如何針對後者進行研究?

  

延伸文獻

 

Garland D (2001) The Culture of Control: Crime and Social Order in Contemporary Society. Oxford: Oxford University Press.

 

Housley, W., Procter, R., Edwards, A., Burnap, P., Williams, M., Sloan, L., Rana, O., Morgan, J., Voss, A., & Greenhill, A. (2014). Big and broad social data and the sociologiclal imagination: A collaborative response. Big data & society, 1, 1-15.

 

Moreno J (1953) Who Shall Survive? Foundations of Sociometry, Group Psychotherapy and Sociodrama. New York: Random House.

 

Shearing C and Wood J (2007) Imagining Security. London: Willan.

20141028水火讀書會Big data_ methodological challenges and approaches for sociological analysis.pdf