Can Network Help Chinese Microblogs Diffuse? Analyzing 118 Networks of Reposts About Social Issues in China 

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

網絡對中國微博的擴散有幫助嗎?有關社會問題的微博轉推網絡分析

(Fu, 2014)


Fu, K.-w. (2014). Can Network Help Chinese Microblogs Diffuse? Analyzing 118 Networks of Reposts About Social Issues in China. In G. Meiselwitz (Ed.), Social Computing and Social Media (Vol. 8531, pp. 331-341): Springer International Publishing.


導讀者:李欣穎

原作摘要:

微博已被廣泛使用於研究政治和社會問題。但是,微博在中國獨特的社會、政治環境中的作用的相關研究仍然是有限的。在這項研究中,我們概念化了微博在中國作為一種“社交網絡”的擴散過程,使用社會網絡分析方法掌握網絡特性。本研究使用新浪微博的開放API,收集了有關中國的各種社會問題的微博內容,共得到118個轉推網絡。我們在研究結果中描述資料裡的網絡特性,發現「分散網絡」(decentralized network)對於中國微博內容的擴散具有重要貢獻。

關鍵詞:中國,微博,社會網絡分析,信息傳播。

研究問題

微博已被廣泛使用於研究政治和社會問題。但在中國的網路環境下研究微博作用的經驗數據仍然是有限的。這類型研究的另一個挑戰是中國政府對於公共信息流動機制的控制已經十分普及,在中國網路環境中研究“社交網絡”是值得商榷的。

先前的研究已經發現,網絡結構會影響線上信息擴散的速率。在這項研究中,我們尋求1)描述中國微博內容擴散的特性; 2)檢查中國微博內容中各種轉推網絡的特性。

數據收集

我們利用新浪微博的開放API來取得中國新浪微博的原始數據。為了收集完整的轉播名單,我們獲得了一個詳盡的使用新浪微博轉貼的時間表API(http://open.weibo.com/wiki/Statuses/repost_timeline/en)。以一個最源頭的網友身份代碼作為參數,把這個參數放入時間表API(repost timeline API)中,API會返回源自於這名網友的轉推名單清單。由於新浪API有單次調用200則轉推文章的限制,可以通過多次將參數放入時間表API的方式,獲得完整的轉推列表。

我們收集了在2012年8月中的118個中國微博的轉推網路,使用關鍵字搜索Weibo scope數據庫。微博內容涉及廣泛的中國社會問題,範圍從反腐敗(關鍵字是貪污或腐敗)房屋拆遷(拆遷或遷拆)城市管理人員的不當行為(城管)。由於某些議題的政治敏感性,我們發現Weibo scope數據庫中有一些推文已經從用戶的時間表中被刪除。然而,轉推的整個列表仍然保存在Weibo scope數據庫中。(注:自2013年,新浪API更新版本不允許撈取轉推列表了)。

轉推的網絡特性

用一個有方向性的網絡圖表示微博與微博之間的轉推流動,其中兩個節點之間的關係(箭頭)表示一個微博用戶轉發另一個用戶的方向。例如,每一個節點代表一位轉推文章的微博使用者(用戶 M),他擁有許多追蹤者F(M)=[FM1, FM2,….. FMf],F代表這位微博用戶的追蹤人數。M的出度中心性(out-degree centrality)代表這位微博用戶的追蹤者中實際轉推M的文章的人數。如下圖,假如M有10名追蹤者F(M)=[FM1, FM2,….. FM10],其中有FM1, FM3, FM8, FM9, and FM10轉推了M的文章那麼M的出度中心性(out-degree centrality)就是5。 

出度中心性(out-degree centrality)是M傳播消息強度的一個指標。內中心性(in-degree centrality)表示M轉推同一則微博內容的次數,通常是一次。M的中介中心性(betweenness centrality)表示M與其他節點之間的最短路徑,表示M作為網絡內連接不同位置的橋樑的相對重要性,是一個節點(用戶)的中介力量的指標。

在這項研究中,我們用中介中心性來衡量節點在網絡中重要性,不同於所有其他節點的程度。此外,出度中心性最大的節點表示最常被轉推的用戶在網絡中的作用。因此,出度值越高的用戶代表他在網絡中有更重要的作用(網絡屬於集中式網絡)。

這項研究還使用以下指標來分析轉推網絡。平均路徑長度是指網絡中的任何一對節點之間的所有最短路徑的平均。集群係數是指網絡的節點聚集在一起,形成與相鄰節點出現三角形連接的一個指標。一個網絡的直徑表示在網絡中的任何兩個節點之間的最長的路徑。一個網絡的程度熵度量(The entropy of degree sequence of a network)是指網絡節點是否具有隨機性。為了便於在不同網絡之間比較,本研究將度量透過均勻分佈程度的熵來標準化。因此,網絡熵度量越接近標準化的值,有較高的隨機性(均勻分佈)的可能。

統計分析

為了分析上述蒐集到的社交網絡數據,我們使用了統計軟體r,其網絡研究的igraph功能。它提供網絡中的分析指標,包括平均最短路徑長度、標準化後的熵度量、群集係數、直徑、出度中心性,和中介中心性等指標,用於測量資料中的網絡特性。

此外,本研究使用Pearson相關係數來測試網絡特性之間的關聯。基於雙變量之間的統計檢驗指標,P值分別設置為0.001,0.01和0.05,以代表不同程度的統計顯著性。

結果

表1為資料的網絡特性的敘述性統計。有幾點值得注意。首先,網絡的平均直徑和平均路徑長度分別為8.85和1.98,這表明,平均每個網絡中至少有一個節點用戶與原始推文大約相距9步之遙、所有微博用戶之間在網絡中的平均最短路徑約為2步。這些結果似乎表明,轉推的擴散路徑效率較高(the path of diffusion of reposts is highly efficient.)。第二,網絡中的連接有平均58%以上源自於網絡中的最大出度中心性的用戶。第三,熵度量的平均值和標準化的偏差分別為0.21和0.07,這表明資料中的網絡分佈大多為非隨機。平均中介中心性為3.67x10 -4,這項發現與關鍵用戶的最大出度中心性的值大約一致。這也表明,一小群高出度中心性的微博用戶貢獻了大部分的網絡連接。 

網絡直徑、網絡中的微博用戶數目,是兩項評估微博內容擴散效力與程度的指標。如表2所示中,網絡中轉貼原始消息的微博用戶人數與網絡直徑呈現正相關(r = 0.52,P <0.001),也與網絡平均路徑長度呈現正相關(r = 0.33,P <0.001)。在網絡直徑方面,它與網絡的平均路徑長度呈現正相關(r = 0.85,P <0.001),也與標準化的熵度量(standardized entropy )呈現正相關(r = 0.25,P <0.01),與中介中心性呈現正相關(r = 0.42,P <0.001)。

 

討論

在這項研究中,我們試圖概念化中國的微博轉貼,作為一種“社交網絡”的擴散過程,使用社會網絡分析來描述原始消息“轉推網絡”與微博用戶之間的相互聯繫關係,以及其中涉及到的網絡特性。

根據我們的研究,我們確定中國微博的網絡特性有利於社會問題的消息傳播。雖然高度集中(較高的中介中心性)的微博用戶的存在是必要的,但我們的研究發現,最高出度中心性的用戶佔據較少的主導地位(a less dominant position of the highest out-degree用戶),或是相對分散的網絡,是信息傳播的一個關鍵因素。這表明,微博擴散的效果不是過於依賴一家獨大的“網上意見領袖”,而是一些擁有高效率(產生轉推和隨後的轉推)的用戶。

這項研究的特別之處在於中國政府已經頒布了新的法規來控制“闢謠”的情況下具有即時性。由於在2012年中國對微博用戶的實名登記制度的實施,對互聯網監管等措施可能是中國政府的另一個政治干預行徑,可能會限制中國信息的自由流動。

我們的研究結果提供了實證基礎,以了解微博中訊息擴散的網絡特性,我們已經證明,“社交網絡”的概念可以適用於理論化和實行微博流量的研究。然而,我們的分析是初步的,探索性的。未來的研究可調查信息擴散的時間變化,以及它與一個更廣泛的網絡之間的特性與關聯。

與本研究問題意識相關的概念與延伸對話: 

1.  作為社群媒體轉推行為的分析方法參考

2. 綜合運用社會網絡分析與相關分析,用網絡指標之間的關聯描述網絡特性

3. 不僅可用於轉推網絡分析,具有關係性質的社交行為,均可參考類似分析方式,如臉書文章的跨粉專傳播、臉書文章的留言階層

4. 新浪微博API文件與介接環境設定參考

5. 詢問傅老師:網絡指標用於微博、推特與臉書用戶社交行為分析的意涵差異

摘要Analyzing 118 Networks of Reposts About Social Issues in China.docx