Big Questions for Social Media Big Data: Representativeness, Validity and Other Methodological Pitfalls

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

社交媒體大數據的大問題：代表性，效度和其他方法缺陷

Tufekci, Zeynep. (2014). Big Questions for Social Media Big Data: Representativeness, Validity and Other Methodological Pitfalls. In ICWSM ’14: Proceedings of the 8th International AAAI Conference on Weblogs and Social Media, 2014.

導讀者：王喆

原作摘要：

社交媒體上的人類活動形成了鉅量資料庫，吸引了科學研究和政策研究的注意力，造就了大量的研究和討論。本篇論文考量的是這一新興領域在方法上和概念上所面對的挑戰，特別是社交媒體鉅量數據分析的效度和代表性，比如對Twitter這一單一平台的過度重視，標籤抽樣中的偏差以及抽樣框架的模糊性和非代表性。針對隱形的算法，使用者的行為更具社會-文化複雜性，比如subtweeting（替換推），mock-retweeting（嘲弄推），用截屏來呈現文字等等，讓解釋社交媒體的鉅量數據變得愈加複雜。其他的挑戰還有場域效應，比如大事件並非只在研究中的對象網絡中擴散，還影響了整個社會。用其他領域的網絡研究方法來研究人類社會活動可能並不會一直很合適。本文最後希望能有所實際行動，來增進我們在這一領域的分析能力。

一、社交媒體鉅量資料的方法論問題。

1. 模式生物問題：

Twitter變成了鉅量資料中的「模式生物」（model organism）。所謂的模式生物，是指為了解釋特定生命現象，被許多科學家共同採用而詳盡研究的生物。

僅僅聚焦於少數的平台，帶來的問題並非僅僅是樣本層面上的非代表性，而是機制層面上的。比如，生物學中的「模式生物」的類屬是不具備代表性的，更重要的是會讓研究偏離類別中的重要機制。它們被挑選出來是因為在實驗環境下不容易死掉，這一特徵並不被其他生物共享。

Twitter在社交媒體鉅量資料分析中作為「模式生物」的主導地位同樣也導致了研究機制中的偏倚。Twitter最主要的特色是短小的信息長度、快速更新、公眾可見度和有導向的網絡圖景（「追蹤」，關係不需要是相互的）。它缺少了博客、Live Journal社群或者Facebook所擁有的一些特性，比如更長的文字、更長的反應時間、視覺和文字更緊密的融合、「朋友關係」的相互性，對談的發展也需要通過更長的時間。可以說，Twitter的能供性和機制在多種方式上都損害了互動。與其他平台相比，Twitter更容易維持社群間的橋接機制，但緊密聯係的聚落之間的支持關係卻很少見。

（*韓國人Kwak等人的研究，what is twitter: a social network or a news media? ）

2. Hashtag分析，選擇性依變項，選擇性效果和使用者的選擇：

雖然研究Hashtag#有利於檢視網絡結構和資訊流動，但所有的Hashtag分析都會挑選依變項，因此展示了這種方法的共現性（cocomitant）特徵和缺點。比如，研究革命的發生會忽視引發這場革命和與革命有共同關係的事例，而這些實例可能並沒有導致革命。因此，選擇依變項（革命的發生）會有助於確定必要的情境，但這些情境可能也並不充足。

在Hashtag資料庫中，一條推文被選入是因為使用者選擇使用該#，這一行為顯然是自主選擇（self-selection）。這種自主選擇的樣本往往不僅在整體特徵上和普遍樣本有不同，而且還會呈現明顯不同的共變傾向，讓議題變成充滿混淆變項的棘手議題。比如，HRT研究。

使用不同的hashtag的樣本在很多重要維度上是有區別的，因為hashtag嵌入在具體的文化和社會政治框架之中。在一些情境中，hashtag是宣告某種特別的同情（#jan25），在另外一些情況下，是警告訊息，hashtag作為反抗的文化空間而浮現（#Bahrain）。由於hashtag的使用者是特別的社群，因此也更容易出現選擇偏誤，難以將他們的行為概推到其他樣本身上。政治化的使用者可能更傾向於轉發類似圖片內容，而非政治化的使用者可能會有迴避的反應。因此，類似「是否圖片內容在Twitter上傳播得更快」或「憤怒資訊擴散得更迅速」這樣的問題可能會由於不同hashtag所帶來的樣本不同，而有非常不同的答案。

Hashtag的分析還會被使用者行為模式所影響。如圖所示，雖然抗議在進行，甚至更加激烈，但hastag卻消亡。透過採訪發現了這種情況出現的兩個原因。第一，一旦每個人都知曉這一主題，hashtag在特性有限的Twitter平台上就很浪費了。第二，hashtag只有在呼喚人們對某主題的注意力時尤其有用，但對於談論它用處不大。

最後，資料庫中大多數hashtag都是成功了的hashtag，為人所知，影響廣泛，吸引了極大的興趣。這種大事件的動力和那些不那麽成功的事件可能會有不同。總而言之，hashtag資料庫應該被視為自我選擇的樣本，資料的缺失並不是隨機出現的，而應該有對應的解釋。

以上這些並不是說hashtag資料庫沒用。相反，它們可以讓我們瞥見特殊的文化和社會政治話語。然而，hashtag資料庫分析需要搭配深入的討論，討論圍繞著特殊hashtag的文化環境，並在考慮到挑選性和樣本偏誤的前提下去進行分析。亦即，hashtag不應該成為唯一的判斷標準。另一個方式則是用hashtag去抓取使用者樣本，然後收集這些使用者的推文（有些人可能之後在推文中不會再使用hashtag），而不是透過hashtag去收集全部推文。hashtag分析應該從理解使用者行為原則開始，應該追蹤使用者而不是跟蹤hashtag。

3. 失蹤的分母：我們知道誰點擊了但是不知道誰看到了以及可以看到。

對於分母的瞭解不足是鉅量資料分析最大的方法危機。光是知道多少人按贊某狀態、點擊某鏈接、或者轉發了某推文是不夠的，因為不知道多少人看到了這些資訊但決定不採取行為。我們很少瞭解這些看到了內容的人的子集，也不知道我們抽樣的整個母體。標準化分佈很少完成，或者研究者會決定放棄它，因為這樣會讓結果看起來更複雜或者更微小。

雖然分母無法計算，但是有可能可以預估。一種方法是「潛在曝露」（potential exposure），推測可能看到這條資訊的人的最大數目。然而，這引起了另一個重要議題：資料往往是有所有權的。如果和平台合作有可能能獲得大致的可見度、點擊數和其他資訊。比如，Facebook的研究者就公開說，一個使用者的朋友們看到狀態更新的平均數和中位數的比率是34-35%。步驟可能很複雜，但是如果沒有這些公努力，我們解釋原始資料的能力就依然有限。學術社群應該讓商業平台開放更多的資訊和近用。

4. 平台生態的缺失。

社交媒體鉅量資料大多數都是單一平台的。然而，研究中的大多數主題都不限於網絡，更別說一個單一的平台。在獲取高質量多平台資料上所遇到的困難並不意味著我們可以將單一的平台視為一個封閉的、孤立的系統。人類生活中的資訊會在所有接觸到的渠道中流動。

浮現中的媒體生態混雜了舊媒體和新媒體，不以平台或設備劃分。最常見的模式是使用者在Facebook、Twitter、大眾媒體、手機對話、面對面交談和其他互動及資訊分享渠道中不斷切換（Tufekci & Wilson，2012）。

這些挑戰並不意味著單一平台分析沒有價值。然而，所有這些分析都應該考慮到它們不是一個封閉的系統，有一些效果可能不可見，因為相關的資訊並沒有出現在這一平台上。需要理解連結性的更廣闊的模式。有時，研究人的唯一方式就是研究人本身。

二、推論和詮釋：我們可以從網絡蹤跡中進行什麼推論？

1. 轉發？

同樣的行為可能會有多重，甚至是矛盾的意涵。

一份關於Twitter的研究（Kwak et al.）讓我們看到如何測量影響力，並追問是否followers的數量或者轉發的數量是更好的測量方法。這篇文章基於轉發推文，認為「某推文的轉發數量是測量推文流行度的方式，以及推文作者的流行度。」這篇論文接著透過轉發總數對使用者進行了排名，推論到影響力或流行度。而另一篇基於Twitter的重要社交媒體研究則認為連入度（in-degree，即followers的數量）是使用者的流行度，而轉發意味著影響力（Cha et al., 2010）。但是，對於他們測量的變項，「流行度」和「影響力」可能不是最好的術語。轉發和追蹤中的一部分可能是負面的或者嘲弄的，並不能代表大家通常理解的「流行度」。

2. 算法無法捕捉使用者的實踐：替代推、仇恨鏈接、截屏和其他方式。

替代推（subtweeting）指的是讓算法無法知道他推文中的那個人是指向哪一個人，甚至會稱他所知道的那個人為「你懂的」。有些人會不提及，或者在@與用戶名之間加個空格，或者用他們的真名或者綽號，或者故意拼錯他們的名字。替代推對很大人來說都是可以理解的，而且會大量轉發，增加了這一實踐行為的重要性。

用截屏而不是引用也是另外一個對算法隱形的方式。

還有其他的實踐，比如仇恨鏈接雖然限制了算法可見度，但還是可以追蹤的。「仇恨鏈接」是一個使用者鏈接到另一個使用者的推特帳號，而不是@或者引用該使用者。這一實踐，也會讓基於@或轉發的分析有偏誤。

總體而言，如果對於某革命的推文分析呈現出一幅兩級分化的地圖，說兩陣營之間互不交流，然而恐怕實際上在這一極化情況中，對抗的群體會透過非傳統的方式彼此接觸，但對於算法和研究者來說，這樣的對話卻不可見。

3. 方法類同性和引介其他領域網絡研究方法的限制。

很多研究者在將其他領域網絡研究方法引入到社交媒體網絡中往往缺少使用度的分析，例如，我們可以問說社交媒體網絡的機制是和飛機網絡的機制一樣嗎？更進一步說，將社交媒體的互動視為網絡同樣也有一套潛在的但極為重要的假設，需要好好考慮，而不是存而不論（Butts, 2009）。

從流行病學或者傳染病學分析而來的靈感往往會用於分析社交媒體中彼此連結的邊，認為他們是在物理上鄰近的「鄰居」。但是細菌和資訊在社交媒體網絡中的傳播是有很大差異性的。社交媒體中的鄰近性是多層的，不一定能畫成物理上的接近性，而人類社會的「點」也會受到更大範圍資訊來源的影響，而不是僅僅在單一社交平台上彼此連結就形成了「點」。最後，是否在資訊曝露和影響力之間有直接關係也是需要經驗驗證的，而不該假設如此。

在引入方法之前應該在考慮網絡互動的普遍性、無關情境的性質之外考慮更多。

4. 場域效果：非網絡互動。

與空間網絡或傳染病網絡相比，人類社會網絡還有另外一點不同，即人類社會資訊流動並不僅僅發生在點對點的網絡中，同時也會流動在場域效果之中，大規模的社會事件會同時影響一大群行動者。比如在2011年1月埃及革命中，埃及民眾受到突尼斯革命的影響，成為了運動的一個重要轉折點。但這一重要改變發生在場域中。資訊透過多種方法和大眾媒體傳播，扮演了重要的角色。因此突尼斯革命的傳播並不依賴於社交媒體的網絡結構。

向網絡轉是社會科學的一個重要隱喻，雖然卓有成果，但是也不能失去對人類社會互動多維本質的關注。

5. 反身性和人類。

人類可以理解、評估鉅量資料研究者所進行測量的方法，並有所反應。「幫助XX上頭條」（Let's trend）的行動並不限於草根行動者。這樣的行為有的是為了避免審查、有的為了擴大符號的影響力，都是有意在與算法和測量指標較量，應該納入到社交媒體的分析考量中。目前，很多研究都將這種「較量」（gaming）行為視為垃圾，然而，往往只有透過質性研究才能發現真是的人們怎麼協調或主動嘗試，以改變指標或結果。

三、結論：行動起來。

1. 關注非社會化的其他依變項。在鉅量資料之外尋找依變項，尤其是那些用傳統的、久經考驗的、可靠的方法中的變項，尋找匯合與分岔的點。這些依變量可能來自失業人數帶來的選舉結果。

2. 質性抽取（qualitative pull-outs）。研究者可以透過質性抽取來檢驗行為的多樣性。比如，多少推文是「仇恨推」？這一小批隨機子樣本可以用來進行檢驗。研究者可以問人們一些問題，比如，他們是否有從電視和Twitter上聽說過X？這些質性抽取並不一定要大量，但可以幫助研究者進行詮釋。

3. 擬訂基準的小組。組建研究人類數位行為的小組，為整個學術社群發展「基準」和「準則」。

4. 聯係商業。向商業尋求「分母」資料。研究社群中的產業研究員會成為溝通的渠道。

5. 跨學科團隊。

6. 不僅僅談限制，還應進行方法論上的反思。

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

https://www.ted.com/talks/zeynep_tufekci_how_the_internet_has_made_social_

change_easy_to_organize_hard_to_win

Kwak, Haewoon, Changhyun Lee, Hosung Park, and Sue Moon. 2010. “What Is Twitter, a Social Network or a News Media?” In Proceedings of the 19th International Conference on World Wide Web, 591–600. WWW ’10. New York, NY, USA: ACM.

Butts, C.T. 2009. Revisiting the foundations of network analysis. Science 325(5939): 414.

導讀Big Questions for Social Media Big Data.doc

Google Sites

Report abuse