Political Discourse on Social Media: Echo Chambers, Gatekeepers, and the Price of Bipartisanship.

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

Garimella, K., Morales, G. D. F., Gionis, A., & Mathioudakis, M. (2018). Political Discourse on Social Media: Echo Chambers, Gatekeepers, and the Price of Bipartisanship. ArXiv:1801.01665 [Cs].

社群媒體中的政治討論:回音室、守門人和跨黨派的代價


導讀者:黃幀昕

原作摘要:

政治回音室現象指的是,人們只關注與自己意識形態相同的信息,而排除掉那些與自己觀念相抵觸的信息。本文將社群媒體中的回音室現象分解成兩個元素:一個是內容層面,一個是網絡層面,并考慮著兩個層面是如何交互的。

對於社群媒體用戶,本文將其分類成內容的生產者和消費者,分析他們作為生產者和消費者表達或者接收到了什麼樣的內容,以及這些內容具有怎樣的政治傾向。通過比較兩者,我們發現,推特用戶很大程度上暴露在自己所認同的政治觀點中。還發現,那些願意連結不同回音室而分享不同政治觀點的人,需要付出「跨黨派的代價」,這些代價就是他們在網絡中的中心性和內容受歡迎程度(content appreciation)。此外,我們還研究了守門人的角色在回音室中的角色。我們用這些發現的特征來預測單一黨派者(partisan)和守門人的角色,發現單一黨派者的身份較容易確認,而守門人的角色則較難確認。


一、介紹

本文中,我們要研究的是推特上的政治對話存在怎樣程度的回音室效果,以及他們的結構是怎樣的。我們把這項研究分為兩個部分:一個用戶表達的觀點;二是回音室—用戶的社會網絡,這個網絡能夠發出的聲音(內容)能夠影響這個用戶。我們認為,如果用戶接從網絡中收到的內容的政治傾向和用戶自己表達的內容的政治傾向是一致的,回音室現象就是存在的。


在以往的研究中,對於回音室沒有一個共同的明確的定義,我們的定義最大程度上把握了這個現象的本質。可是,此前的一些研究也有不一樣的視角。例如,以前的研究或者關注的是單一黨派者他們閱讀的內容或者分享的內容之間的差異;社會網絡結構;或者是用戶之間互動的結構,例如部落格連結和轉推。我們採用的是一個更加廣泛的定義,它基於內容(包含了分享的內容和生產的所有內容;而不僅僅是特定的互動的內容,例如轉推),這種定義把內容和網絡連結在了一起。


特別的是,我們根據用戶生產和接收到的信息的政治傾向,定義了生產者和消費者。我們用它放進推特的數據集,其中包括了一個超過25億推文的大型數據集。我們的發現表明一個用戶生產內容的政治傾向和消費內容的政治傾向高度相關,因此可以認為:推特上的回音室現象非常普遍。


接著,我們又分析了「單一黨派用戶」,他們生產的內容幾乎只有一種政治傾向;而「跨黨派用戶」(bipartisan users),他們生產的內容具有兩種政治傾向。我們的研究發現,單一黨派用戶無論在內容特征還是社會網絡中都能夠得到更高的欣賞(appreciation)。這個發現表明在那些試圖溝通兩個回音室的用戶身上,存在「跨黨派的代價」(price of bipartisanship)。


此外,我們還研究了「守門人用戶」(gatekeeper),他們接收來自兩種政治傾向的信息,但是只生產單一政治傾向的信息。這些用戶是是社交網絡中的跨界者,他們傾聽到兩種政治傾向的信息,但是有自己明確的價值立場。他們的人數很少,具有高於平均值的網絡中心性,但是無法深入地嵌入社群當中。


最後,我們根據這些原則,以及推特用戶分享內容和社會網絡的特征,來預測單一黨派用戶和守門人用戶,發現單一黨派用戶較容易確認,而守門人用戶則較為困難。


二、相關研究

2.1 回音室

回音室的意思是人們只聽到他們自己的聲音,特別是在社群媒體中,他們只會消費那些和他們觀點一致的內容。回音室效果被證明在部落格、網絡論壇和社群網站中都存在。


先前的研究都在試圖量化網絡回音室效果的程度,例如,Gilbert 研究了一批政治博客的評論,發現評論和作者的觀點不成比例地一致。在推特上,An 等人的研究發現,九成的用戶只關注單一立場的新聞媒體賬號,只有朋友的轉推能夠讓他們看到更加多元的觀點。


在臉書上,Bakshy 等人的研究測量了一些擁有明確政治觀點的群體是否消費了不同政治觀點的內容。被消費的內容被定義成三個層次:(1)潛在的暴露,其中包括這個用戶的所有朋友分享的貼文;(2)暴露,所有出現在該用戶 feed 中的貼文;(3)參與,包含該用戶點擊的所有內容。該研究發現,即使是用戶被暴露在一個高度跨黨派的環境下,他們仍然很少點開那些價值不一致內容,這種行為模式可以用偏見同化效應(biased assimilation)來解釋。在本研究中,由於資料的可獲取性,我們只考慮第一個潛在暴露的層次。


雖然以上有這麼多相關研究,但是它們關於回音室並沒有明確的定義。他們在研究的是時候,或是只關注到了內容的層面,或是只關注到了社會網絡的層面。在本研究中,我們從內容和社會網絡兩個層面來確認回音室的存在。以往的研究在研究內容的時候,大多著眼于內容消費的層面,本研究則將個體用戶的內容生產和內容消費結合在一起,來探究用戶之間不同的內容生產消費模式和他們在網絡中的地位之間的相關關係。目之所及,這是第一個在推特上將內容和網絡結合起來研究的回音室的論文。


2.2 心理學和算法機制

選擇性暴露理(selective exposure)論表明人們更加喜歡和自己觀點一致的信息,而避免和自己觀點不一致的信息。而偏見同化效應(biased assimilation) 表明,即使人們被暴露在不同觀點的信息下,人們仍然會用自己已有的觀點來解釋信息。這些心理學機制和其它偏見,例如算法過濾(algorithmic filtering)、客製化(personalization)的共同作用都和回音室現象有關。理解這些現象的因果關係以及如何相互影響,不是本文關注的重點。


2.3 節點和網絡的關係

我們的目標之一是要了解節點性質(用戶的內容生產和消費)和網絡性質(pagerank 和 clustering coefficient) 之間的關係。

同質性(homophily)是研究社會網絡的中心觀念。對於一個給定的網絡和節點特征,網絡中鄰近的節點或是特征相同的節點會有較為一致的表現。例如,在一個由 retweet 組成的網絡中,聚類(clusters) 和用戶的意識形態具有相關性。在本研究中,回音室可以被理解為某種形式的同質性,這種同質性表示的是用戶生產或者消費的內容的政治傾向程度。


2.4 跨黨派的代價

Hetherinton 認為,一個政黨的黨派性越強,就能夠獲得越高的影響力。先前的研究分析了黨派媒體的作用,并回答了這樣的問題:黨派媒體是否加劇了政治極化,以及黨派媒體是否導致美國公眾更加支持黨派色彩強烈的候選人?研究結果支持了這樣的結論。


在本研究中,我們研究的是「跨黨派的代價」,這是這個概念首次在社交網絡中被研究。我們想要展示的是,如果一個用戶生產了跨黨派的內容,是否會對這他們自己在網絡當中的地位造成影響。


2.5 守門人理論

守門人(gatekeeping)理論是傳播研究中的術語,用來表示新聞媒體扮演著信息過濾的角色。Barzilai-Nahon 提出了一個基於網絡理論的模型,將守門人理論運用到互聯網和所有信息(不僅僅是新聞)當中。一些此前的研究已經將是守門人理論運用到推特當中,發現不同於傳統媒體,任何一個普通用戶在社交媒體上都可以成為守門人。


在本研究中,我們把守門人定義為:接收到跨黨派的多元觀點和信息,但是只生產出單一黨派的信息,因此起到了過濾的功能。目之所及,這也是守門人理論在回音室當中的應用。


三 數據

我們使用收集自推特的不同數據集來進行研究,每一個數據集都是一個不同的主題,當中包含了大量的推文信息。


這些數據集可以分成兩大部分:政治的和非政治的,這主要取決於討論的是否是政治信息。對於每一個數據集,我們都建立了一個網絡來代表用戶之間的關係。對於每一個數據集,我們採用簡單的方法來排除機器人:設立每天發文的最大和最小門檻,followers 的數量,朋友數量,確保這些賬號至少有一年的數據。


3.1 政治相關的數據集

其中五個數據集和政治爭議有關。每一個數據集都是在特殊的事件爆發后該議題的討論大量增加的背景下開始收集,使用的工具是 Archive Twitter Stream 。


首先通過關鍵詞的方式,抓取該事件發生前後一周內的所有貼文。之後,我們選擇出在這個時間段內發文數量超過5條的用戶,認為他們是積極參與到相關話題討論中的用戶。之後,我們通過 REST API 收集到這些用戶的所有貼文。


第四個數據集和選舉有關

第五個數據集時間跨度長達7年,推文數多達26億。


3.2 非政治的數據集

為了有參照的基準,我們選擇了五個非政治性的數據集。收集方式:首先,我們根據 Internet Archive 上的推文,選擇出2016年7月期間包含相關話題標籤的推文,接著過濾出那些發文數量超過5條的用戶。第三,抓取下這些用戶的所有推文。


3.3 網絡

對於每一個數據集,我們都根據 follow 關係建立一個網絡,edge(u-v) 表示的是 u 關注了 v。


3.4 內容的政治傾向分數

我們的研究需要刻畫出每個用戶內容的政治傾向分數,如果只是用文字(例如推文)來進行判斷,是非常冒險的行為。因此,我們選擇 Bakshy 的方法,用社交媒體上不同的新聞組織的域名來衡量該用戶的政治傾向分數。


Bakshy 對 500 個在臉書上最常被分享的新聞網站進行評分,每個新聞網站都有自己的 source polarity 分數。分數越接近0,該網站的自由主義傾向越明顯;分數越接近1,該網站的保守主義傾向越明顯。source polarity 的分佈情況如圖所示。



四、測量

4.1、內容

我們認為,在一個用戶生產的內容和接收到的內容是一致的時候,就會存在回音室效應。如果要進行操作化,我們需要得到一個用戶生產的內容的政治傾向分數,和用戶消費的內容的政治傾向的分數。


因此,我們從所有推文當中篩選出包含這些新聞組織域名的推文,並且運用之前每個新聞網站的 source polarity 來確定每個用戶的政治傾向分數。


4.1.1用戶生產的內容的政治傾向分數

對於每一數據集中的每一個用戶,我們都可以拿到這個用戶的生產的所有推文,過濾出包含這些新聞網站的推文。


每條推文的 source polarity 相加/新聞網站的推文數,得到的結果在0和1之間,越接近0越靠近自由主義,越接近1越靠近保守主義。


除此之外,我們還要計算每個用戶生產的內容是來自單方面(單一黨派用戶)還是雙方面(跨黨派用戶),因此設計出 δ -partisan 指數, δ 的值在0到1/2之間,越靠近兩邊黨派性越強;越靠近中間跨黨派性越強。


4.1.2生產內容的政治傾向變異數

計算變異數的目的是量化一個用戶生產內容的波動情況。


4.1.3消費內容的政治傾向分數

用戶接收到的所有推文做相同的處理


4.1.4消費內容的政治傾向變異數

計算變異數的目的是量化一個用戶消費內容的波動情況。


4.1.5守門人

定義:消費跨黨派的多元觀點和信息,但是只生產出單一黨派的信息。


4.2 網絡

我們的目標是要了解用戶(作為內容生產者、內容消費者)和其所在的網絡結構之間的相互作用。因此,我們需要測量出每個用戶在網絡當中所處的位置以及他們和其他用戶之間的交互。


4.2.1 用戶極值(user polarity)

我們使用 Barbera 的方法來估計用戶的極值(user polarity)。Barbera 假設推特用戶更願意關注那些和自己意識形態相近的政治人物,於是 Barbera 使用一系列政治人物的賬號來估計一個用戶的極值。負值表示該用戶偏向民主黨,正值表示該用戶偏向共和黨,絕對值表示該用戶對黨派的支持程度。


4.2.2 網絡中心性(Network centrality)

我們使用著名的 PageRank 方法來計算每個節點在網絡當中的重要程度。


4.2.3 聚集係數(Clustring coefficient)

在圖論當中,一個節點的聚集係數被他相鄰的節點所決定。一個節點的聚集係數越高,表示 ego-network 的程度越強,這個節點在社群當中的聯繫也就越緊密。


4.2.4 轉推率/點讚率

一個用戶所有推文當中至少被轉推/點讚一次的比例


4.2.5 轉推數/點讚數

一個用戶所有推文當中,被轉推/點讚的中位數


五、分析

本研究要用第四部分的測量方法,解決第三部分提出的以下問題:

(1)回音室效果是否存在?我們通過用戶生產內容的政治傾向分數和消費內容的政治傾向分數來回答這個問題。


(2)成為單一黨派者是否有「好處」?我們用中心性(網絡中心性)、連結性(聚集係數)和轉推量、點讚量來衡量「好處」。


(3)在一個網絡中,什麼樣的用戶容易成為信息的守門人?我們將探索這些用戶的特點,并分析他們和其它用戶有何不同。


(4)如果單單看一個用戶的推文,我們是否能夠預測這個用戶是單一黨派用戶還是守門人用戶?我們建立了一個分類模型來進行預測。


5.1 回音室:內容生產和內容消費

回音室效果是否存在?我們通過用戶生產內容的政治傾向分數和消費內容的政治傾向分數來回答這個問題。


圖中每一個點都是一個用戶,顏色代表其傾向民主黨還是共和黨。橫軸和縱軸都代表內容的政治傾向分數。


在政治話題的數據集中,用戶生產的內容和消費的內容高度相關;但是在非政治話題的數據中,則沒有明顯的相關性。


那麼生產內容和消費內容的政治傾向分數是否和該用戶的極化分數一致呢?可以通過子圖來得到答案。我們可以發現,在政治話題的數據集中,民主黨和共和黨的分佈有很大差別,並且呈雙峰分佈,表明兩黨用戶的生產和消費內容有很大產別;但是非政治話題的數據集中,兩黨用戶卻沒有顯著差別。


最後,我們檢查了內容生產和消費極化指數的變異數。我們想知道,哪些單一黨派傾向更加明顯的用戶,他們生產或者消費的內容是否具有更小變異數,如果是,則表明他們所生產或者接收到的內容來自一個非常窄的光譜。


結果顯示這樣的假設是正確的。所有圖都呈倒 U 型,表示兩邊的極端人群,他們生產的內容變異數和消費的內容的變異數都更低。也就是說,單一黨派者的內容變異性低,跨黨派者的內容變異性高。當我們用用戶的個人極化指數來進行檢驗的時候,得到了同樣的結果。


5.2 單一黨派用戶的分析

在本部分,我們將會比較單一黨派用戶和跨黨派用戶之間的區別。我們主要從三個方面來進行比較。

(1)網絡:中心性、聚集係數和用戶極化指數的絕對值(絕對值越高表示極化程度越高)

(2)profile:粉絲數量(受歡迎程度)、朋友的數量、使用推特的時間

(3)互動:轉推/點讚率、轉推/點讚中位數


單一黨派用戶和跨黨派用戶的區別用 δ 作為門檻值進行劃分。如何確定最佳的值?我們以0.05位間隔,對0.20到0.45中的每一個值進行嘗試。對於每一個δ,我們都可以將用戶分成兩組,並且檢定這兩組用戶的特征是否有顯著不同。✓表示對於這個特征,單一黨派者的分數要顯著高於跨黨派者。✓ (-)表示對於這個特征,單一黨派者的分數要顯著低於跨黨派者。✗表示沒有顯著關係。


由圖可知,單一黨派用戶較跨黨派用戶,極化程度更高(user polarity)、在社會網絡中具有更高的重要性(pagerank)、 和社群聯繫地更加緊密(clustering coefficient)。他們的推文也更加受到歡迎(retweet、favourate)。


5.3 守門人的分析

同樣用 δ 作為守門人和非守門人劃分的標準。

守門人和單一黨派者一樣,較非守門人具有更高的中心性(pagerank),他們在網絡當中具有更加重要的位置。但是,他們和社群之間的聯繫卻沒有非守門人來得緊密。因為他們的信息獲取來自兩個方面,因此極化程度較非守門人更低。

此外,我們發現守門人和非守門人在受歡迎程度上沒有顯著的差異。

如果把守門人和單一黨派者進行比較,可以發現單一黨派者的網絡中心性要顯著高於守門人。表明生產單一黨派的內容,可以獲得更高的回報。


5.4 預測

如果不知道用戶內容的政治傾向,我們能否直接預測出他們是單一黨派用戶還是守門人?我們使用 Random Forest 的分類器對如下特征進行訓練:

網絡特征:pagerank、聚集係數、degree

profile 特征:推文數量、粉絲數、朋友數量、在推特的時間

推文特征:n-grams(處理自然語言的算法)

結果顯示網絡特征和 n-gram 具有最好的預測力,把兩組特征結合起來看,區分單一黨派者有0.8左右的正確率,區分守門人有0.7左右的正確率



六、討論

本篇論文中,我們研究了社群媒體上政治討論的回音室現象。非常特別地,我們將內容和社會網絡結合起來一起討論,並且區分了不同用戶的角色。

回音室是存在的。用戶生產的內容的極化指數和用戶消費的內容的極化指數具有明顯的雙峰特征,並且兩者之間高度相關。

「跨黨派的代價」理論是存在的。單一黨派用戶在網絡中能夠獲得比跨黨派用戶更高的網絡地位。這是這個理論第一次應用在回音室的研究當中。

守門人在網絡當中具有的特征:聚集係數要低於非守門人,因為他們橫跨兩個群體;但是具有更高的重要性。這也是守門人理論第一次應用在回音室理論中。但是,我們的研究無法顯示這些守門人是否真的具有開放心態的網絡公民或是哨兵(他們關注立場不一樣的人只是為了攻擊他們的觀點)。


七、研究限制

1、數據集只來自推特,無法推論到所有的社群媒體上。

2、我們設計的內容政治傾向分數依靠外部的新聞來源,這種選擇將我們分析的適用性限制在了政治一致性的討論上。

3、我們假設一個用戶消費的內容就是他 follow 的人所生產的內容。但是現實中,沒有人會讀完這些所有信息。

4、最後,用戶從這些網站所分享的文章並非都是政治性的。我們曾把這些文章分為硬文章(政治、觀點)和軟文章(娛樂、八卦),結果發現這些被分享的文章中超過85%都是硬文章。因此我們將所有文章都納入分析。


八、未來的研究

1、探索更多可以解釋回音室現象的特征。例如,n-gram 特征能夠很好地幫助確認單一黨派者的身份,之後我們可以更多的使用自然語言處理的技術進行研究。

2、設計(概率生成的)模型來解釋回音室的結構,同時考量內容和網絡特征兩個方面,還要考慮用戶本身的角色。一個極化的綜合模型,不僅影響觀點在網絡中的傳播,還會影響這個網絡結構本身。


Political_Discourse_on_Social_Media.docx