From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series.

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

從推特到民調:文本情感和公眾輿論的時間序列分析

(O'Connor, Balasubramanyan, Routledge, & Smith, 2010)


O'Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. ICWSM, 11(122-129), 1.2. 

導讀者:李欣穎

原作摘要:

本文發展公眾輿論的情緒測量方法,並用公眾輿論的情緒來衡量民意調查的結果。我們在2008年至2009年期間,分析與美國消費者信心指數和政治見解相關的Twitter情緒詞頻率,發現美國消費者信心指數和政治民調在某些條件下與Twitter上發言內容的情緒用詞之詞頻呈現正相關,在某些議題上的相關係數可高達80%,並且可以提前偵測出重要的大型趨勢。研究結果顯示文本變化具有替代和補充傳統民意調查的潛力。

作為基準的美國消費者信心指數和政治民調

美國消費者信心指數有兩個著名的調查:Consumer Confidence Index from the Consumer Board, and the Index of Consumer Sentiment (ICS) from the Reuters/University of Michigan Surveys of Consumers。本文使用後者,它自1950 年代以來就開始進行研究,在經濟學領域中是更為廣泛的。ICS每月在電話中採訪五個問題,由全美國具代表性的樣本來回應,組合成指數分數。以下舉例兩個問題,例如:

1.  我們感興趣的人在財務上過得怎麼樣?你(和你的家人)在財務上比一年前是更好還是更壞?

2. 你認為在未來十二個月期間,國家在財務方面是更好還是更壞?為什麼?

此外,本文還使用另一項民意調查:蓋洛普經濟信心指數Gallup Organization's "Economic Confidence" index,這項調查來自受訪者對整體經濟環境問題的答案,是 納入到ICS裡面的。本文對它感興趣是因為它與ICS有關。不同的地方是,它頻繁地進行調查,提供日常資料,更方便了我們的比較研究。這兩個資料集如圖1所示。

 

在政治民調方面,我們使用兩個民調。第一是蓋洛普的日常追蹤投票意向調查,對奧巴馬總統在2009年期間工作的評價,報告數據為每3天1次平均。這些資料顯示在圖2。

第二是跟蹤民調,在2008年美國總統選舉期間,詢問潛力選民他們將投票給奧巴馬或麥凱恩。在2008年有許多相同的調查,本文使用Pollster.com,在491個資料點(源自46個不同民意調查單位所提供的數據)。圖3為所示之資料。

 


文本分析

任務可以分解成兩個子問題:

1. 訊息檢索:識別訊息與主題有關

2. 態度估計:確定這些訊息是否表達正面或負面意見,或是與新聞話題有關。

訊息檢索

我們只使用含主題關鍵字的訊息,由研究者自行指定每個主題的關鍵字:

  主題為消費者信心,我們使用經濟,工作,工作等詞彙economy, job, and jobs。

  主題為總統的民調,我們使用奧巴馬obama。

  主題為選舉民調,我們使用奧巴馬和麥凱恩obama and mccain。

在圖4中,這些聲量的變化似乎由新聞事件所驅動。所有主題都有一個每週的週期性變化結構,在平日變化的更加頻繁(與週末相比)。

 

情緒估計

我們通過計算正面和負面消息量得出情緒得分。正面和負面的詞語定義是根據OpinionFinder所提供的字詞清單,其中包含了1,600和1200個單詞,分別標記為正面和負面的詞彙(Wilson, Wiebe, and Hoffmann, 2005)。

一則消息如果包含任何正面的詞或是任何否定詞,它就可以被定義情緒。這允許同時被認為是正面和負面的訊息。只是數量十分稀少,因為推特的消息字數很短。

 

平均情緒估計

情緒的變化幅度遠遠超過大多數的民意調查。就像圖4中的主題,每天的聲量迅速地上升和下降。為了獲得一個更一致的信號,我們計算了情緒的平均值,依據不同的天數。平均處理是一個至關重要的問題。它會導致情緒一致的現象出現在更長的時間。太過於平滑Smoothing的處理將使細微的情緒變化不容易被看見。請參閱圖5舉例說明。

 

相關分析:文本情感領先民調

圖6顯示工作(job)文本的情緒比和兩種不同方法的消費者信心調查結果相較,趨勢大致相符。以情緒的15天平均進行預測,它與蓋洛普的相關係數為 r = 73. 1%。最明顯的差異在2008年5月與6月。

 


預測:文本情感預測民調

當消費者信心變化時,第一時間是反應在文本的情緒,或是在民調中?如果文本情緒能更快地對事件作出回應,以文本情緒作為民調方法可能對於經濟研究人員和政策制定者很有用。我們可以透過觀察部分,測試這種情緒領先民調的情形。

 

模型中,調查結果為YT,每天的情緒比為XJ,高斯雜訊為t,和一個固定的參數ķ。在一天投票的結束後,一項民意調查的結果將與K-1天的文本情感相比較。

 

我們引進一個滯後參數L放入模型中:文本情緒預測或落後民調將依據不同的文本情緒平均方式。L > 0表示文本情緒得以預測投票,L < k表示投票結果領先文本情緒。當文本情緒領先民調時,文本情緒與民調之間的相關係數比較高,顯示文本情緒是一個消費者信心指數的領先指標。

情緒平均天數越多,文本情緒與民調之間的相關係數越大。for Gallup, 7-, 15-, and 30-day windows peak at r = 716%,76:3%, and 79:4%.

 


奧巴馬 2009 年執政評價和 2008 年 選舉民調

在2008年文本情緒比並不與選舉民調有關 (r = −8%),反倒是奧巴馬的推特訊息聲量與民調十分相關,原始聲量已達 52% 相關,15日聲量平均更是達到 r = 79%。簡單的解釋可能是,麥凱恩或奧巴馬的詞頻是選舉新聞事件的指標反應,而大多數2008年選舉時發生的新聞和事件對奧巴馬大多有利。

 


結論

在本文中我們發現基於Twitter的資料分析,是相對簡單的情緒探測器,可以預測消費者信心和總統的工作評價和民意調查。更先進的自然語言處理技術,對提高輿論估計可能非常有用。

此外,分析途徑可以改善。除了需要更多的適合詞彙,應考慮其餘的社群訊息傳遞模式。當消息轉發(轉發郵件)時算嗎?新聞標題呢?今後的工作應尋求瞭解如何使用這些不同的信號,反映民意(作為一個民意的隱藏的數),或作為民意測量(比起面對面訪談更為可靠)。

與本研究問題意識相關的概念與延伸對話: 

1. 聲量的分析方式:平均處理或加權

2. 聲量與其餘因素的相關分析:片斷的時序分析,尋求其餘影響因素

3. 社群資料與其餘資料的相關分析:民調數字、新聞標題、關鍵詞彙詞頻

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)



資料狀況:

■電子檔(摘要/全文):           

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。



從推特到民調 文本情感和公眾輿論的時間序列分析.docx