A method for computing political preference among Twitter followers

水火計畫讀書會書目摘要單

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

Golbeck, J., & Hansen, D. (2014). A method for computing political preference among Twitter followers. Social Networks, 36, 177-184.

導讀者：李瑞娟

原作摘要：

許多研究想了解媒體偏見和政治資訊尋求的偏好，當媒體機構創造線上人格（personas），作者想了解的不是媒體偏好而是閱聽眾的政治偏好。此研究得出一個自動計算方法，得知美國媒體機構、政府機關、利益團體和智庫的Twitter追蹤者之政治偏好。此研究也討論這些結果何以形成，以及如何被延伸。

重點整理：

1.前言與相關研究

A. 電腦自動化測量政治偏向（bias）利用美國政治為研究背景和範例，透過電腦分析媒體機構、政府、智庫的「追蹤」行為。雖然本研究並不是聚焦於媒體或其他組織的偏向，已有相當多研究指出媒體偏向與觀眾的偏好有強烈連結。資料集使用自動的方法測量新聞報導與機構中的自由、保守偏見。雖然特定的方法被用來測量偏見會很有問題並高度爭議，這些自動方法並不仰賴主觀測量。

B. 過去測量媒體偏向的方法

(1)被誰引用以新聞機構引用某智庫的次數，再比對眾議員們引用此智庫的次數。如果被自由派的眾議員引用此智庫，則引用此智庫次數多的媒體被推論為自由派(Groseclose& Milyo, 2005)。

(2)關鍵字比較知名議員和新聞報導的關鍵字和片語，新聞用語像是「死亡稅」和「非法移民」通常是保守的。(Gentzkow& Shapiro, 2010)。

(3)共現分數透過其他已知有政治偏向的網路文件，以網址引用行為比對，找出共現的網址並分配自由／保守分數(Efron, 2004)。相較於這些方法，因是要測量媒體機構閱聽眾的政治偏好，不是新聞內容本身，所以策略類似(Groseclose& Milyo, 2005)。利用眾議員的自由/保守指數作為評分的起始點，是透過Twitter的追蹤關係而非文章引用。使用追蹤關係避免掉Groseclose& Milyo (2005)的限制：過度仰賴記者的中立和眾議員的引用行為。此方法並不需要研究者閱讀報導和找出引用，或是取得大量報導和國會演說，使用的是Twitter公開且免費的資料。

2.方法和取樣

l 步驟一：計算眾議員的自由 /保守指數（美國有許多眾議員使用Twitter），有兩種資料來源:

1.以Americans for Democratic Action(ADA)2009年國會的投票紀錄，利用眾議員的投票紀錄定義自由或保守立場，分數0.0-1.0為最保守到最自由，給第111屆國會成員每個人一個分數，這是目前最廣被接受測量政治立場的方法。

2.此外，使用DW-nominate scores (Clinton,2004)模型（歷史投票紀錄）加入ADA計算，分數從-1到1代表從自由到保守。

l 步驟二：計算眾議員追蹤者的P-Scores分數蒐集每個眾議員Twitter帳號的追蹤者名單，每個追蹤者會得到一個平均政治偏好的分數。此方法預設人們的政治偏好會反映在他們追蹤哪些眾議員，過去「選擇性暴露」的研究認為人們會從相近的政治觀點尋找政治資訊。我們透過調查和量化測量證實這個推論，並在下一節討論追蹤者的效度。

l 步驟三：以眾議員追蹤者計算其他機構的分數在眾議員的追蹤者中找出也有追蹤媒體機構的人，透過他們追蹤的政府機構、利益團體與智庫，給他們一個自由/保守分數。但這方法產生一個問題，推特使用者並不代表整體人

口，所以研究者以自由和保守偏向的分布來抽樣。

ü 資料清洗因為共和黨議員的追蹤者人數過多，不符現實地高過民主黨（五十八萬vs.二十九萬），因此研究者以選舉中兩黨的1:1席次比例抽樣，並去掉有一百七十萬追蹤者的共和黨John McCain，不讓他成為過度影響的資料。

ü 追蹤者抽樣

眾議員被依照追蹤者人數分五群10000, 5000-1000, 1000-500, 500-100, 100-10，每一群挑選數量相等的民主、共和黨議員，如果一群裡有20個共和黨人15個民主黨人，那就會抽取15個民主黨議員，然後隨機抽取20個共和黨之中的15人。至於追蹤者是由每群的最小單位決定抽取人數，例如500-1000這群，最多取500個被挑中議員的追蹤者。此外，研究者也去掉同時追蹤兩黨議員的追蹤者，避免重複計算他的資料。為了計算每家媒體的政治偏向，研究者透過10組抽樣來驗證，每組抽樣中有160位議員（兩位無黨籍）、平均171905個追蹤者。

3. 驗證追蹤者的分數

為了測試追蹤議員的人，的確會在推文中表達出政治信念，以量化和質化的方法來證明推論。

3.1 推論檢驗:量化驗證以2012年總統大選當天的91312則推文、60171個帳號，透過使用者的貼文內容得知他支持哪個候選人，並比對P-Score的計算結果是否相符合。編碼的片語如下：

後來研究者得到一個使用者子集(subset)，也就是推文中清楚表達立場的4399個使用者名單。

3.2 推論檢驗:質化驗證兩位編碼者人工編碼所有推文，因支持歐巴馬或羅姆尼的立場相當明顯，相互信度很高.983。結果有565個使用者沒有明顯候選人偏好、1972人支持羅姆尼、1812人支持歐巴馬。

l 兩種算法做T-Test，歐巴馬和羅姆尼的支持者有明顯差異p<0.0001。但ADA算法出來的結果比較極化(見下圖)，政治偏向的計算分數會比較穩定，再加上有議員的投票紀錄，所以研究者後續就採用ADA的算法來計算政治偏向。

4. 媒體讀者的政治偏好

20家媒體機構中，有15家落在中立區間(0.4-0.6)，也就是說大多數的媒體機構看起來是中立的，這顯示出讀者大約有一半支持保守一半支持自由派，與現實世界的情況相符。但可以看出某些立場特別明顯的媒體，例如FOX NEWS, DRUGE REPORT, The Washington Times為保守派，而華爾街日報和紐時這兩個菁英報則有截然不同的立場。

5. 利益團體、政府機構與智庫有趣發現－(1).三個團體的政治偏向：

Department of Defense(DoD),CDC Flu, and NASA Head-quarters Photo stream(NASAHQPhoto)。國防部、疾病管制局偏保守派，NASA總部偏自由派。

(2).國家公園屬於自由或保守派？國家公園地處哪一州，也就是實際該州的政治偏向與研究者算出的政治偏向大致符合，地理位置可做解釋。0.4或以下分數的10個帳號中，就有6個是阿拉斯加國家公園底下的帳號，而阿拉斯加州一直都是共和黨的大票倉。另外，環保團體的帳號經計算後，政治偏向則多屬自由派。

追蹤者的分數符合智庫的政治偏向，最保守的那群人會去追蹤American Conservative Union, American Tax Reformer, the National Right to Life Committee, the National Taxpayers’ Union, the National Riﬂe Association, the Heritage Foundation, and the Christian Coalition，這些團體全都表明過他們的保守立場。

6. 討論研究者認為成功預測的計算法，對於想了解不同新聞組織的分析家、市場和研究者相當重要，也能為Twitter使用者量身打造更多客製化推文。有利於A. 個人化推薦介面 B. 改善社群媒體平台的監測機制 C.理解媒體偏向 D.偵測閱聽眾在其他領域（如後續研究可做綠色指數等等）或地點的偏好。

與本研究問題意識相關的概念與延伸對話：

1. 以追蹤者的追蹤行為來測量媒體的政治偏向，前提是使用者本身的政治意識（political savvy）要夠強，要同時追蹤政治人物和媒體的帳號才行。

2. 由於facebook不能撈取粉絲專頁的按讚者，所以台灣的話適合比較政治人物與媒體使用的關鍵字共現的作法，找出媒體的政治偏向。

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

Efron, M. (2004, November). The liberal media and right-wing conspiracies: using cocitation information to estimate political orientation in web documents. In Proceedings of the thirteenth ACM international conference on Information and knowledge management (pp. 390-398). ACM.

Gentzkow, M., & Shapiro, J. M. (2010). What drives media slant? Evidence from US daily newspapers. Econometrica, 78(1), 35-71.

摘要Golbeck, J., & Hansen, D. (2014). A method for computing political preference among Twitter followers. Social Networks, 36, 177-184..docx