Sentiment analysis and time series with Twitter

水火計畫讀書會目摘要單 水火計畫讀書會目摘要單 水火計畫讀書會目摘要單 水火計畫讀書會目摘要單

書名(以學術體例詳填資料,網路來源提供超連結及檢索日) Weller, K., Bruns, A., Burgess, J. E., Mahrt, M., & Puschmann, C. (2013) Sentiment analysis and time series with Twitter. Peter Lang. Chapter 7

導讀者:朱蘊兒

原作 摘要: 摘要:

時間序列與情緒分析可用於分析趨勢、興趣及情緒的變化

重點整理:

Junior’s劇透:這篇文章有點像推銷自家研發的軟體的教育型廣告文,從大體上爬梳了Twitter的情緒分析與時間序列分析的幾個研究方向及研究方法如何操作,並介紹了英國Wolverhampton大學研發的收集與分析Twitter資料的軟體,儘管這篇文章並未對這些研究方向做進一步的分析或批判,但其實用性很高,可以在想不清研究問題、捋不清研究方法的時候拿出來參考。

 Microblogs可提供更有效的輿情監測的原因:

1. 有可靠的時間標記;

2. 使用門檻低,因而普及率高,更具有代表性;

3. 為公開資料。

 Microblogs相較于之前的媒體的特性:

1. 相對於部落格,微博客更易於凝聚人氣、注意力,形成公共議題,ex.在Twitter誕生前,2005.9~2006.1都沒有什麽公共議題足以吸引大眾注意力;

2. 可以跨越地理限制,整合訊息,ex. Twitter及時讓三起校園槍擊事件的訊息匯流,讓受眾可以瞭解事件全貌;

3. 可以用趨勢分析的方法來預測議程的未來走向;

4. 可以用時間序列的方法來分析情緒或議題熱度的歷時性變化,ex. 預測選舉結果;

一、創建語料庫

資料來源有二:一是直接購買,二是通過一段時間的監控,自主抓取資料,這篇文章要討論的是如何實現後者。

 流程:建立查詢條件(涵蓋全體、避免雜訊)→測試查詢→持續收集資料→處理資料

 Twitter API的限制:只允許抓取兩周以內的資料,並且設定了一個撈取數量的上限,因此它無法撈到全部資料,只能將其視為母體的一部份樣本;

 解決方法:設計程式,自動定時抓取,及時存儲,推薦使用Webometric Analyst (http://lexiurl.wlv.ac.uk/)

 倫理問題:作者認為Twitter資料屬於公開資料,不涉及隱私,因此倫理上沒有太大的問題,但還是要盡可能避免直接公佈這些內容,因為可能會影響研究對象的私生活;

 視覺化:推薦使用Topsy Analytics(http://analytics.topsy.com/)

 網站有三個主功能:Search、Analytics(時間序列)、Trends(最夯的Link/Tweets/Photos/Videos,可選擇「中文」的貼文)

二、時間序列分析

 簡單時間序列分析:從前中后期分別抽出一部份樣本資料,進行內容分析、分類,然後比較時間序列上,不同類別的表現如何;

 圖形化時間序列分析:通常以一小時為間隔,繪製某類話題推文數量隨時間變化的折綫圖,ex.倫敦騷亂,可以有以下幾個觀察的重點:

 初始上升點、最高點、下降點、恢復點  事前事後比較,公眾興趣是否有所提升?(最後恢復的常態值是否比事前高)關注度的增長或遞減是否為勻速?或有突變?突變是由於哪個事件引發的?(回溯文本,有時突變也會是因為垃圾廣告引起的)

 注意:突變也有可能是資料的自然變動(natural variation,?)所產生的,未必是由於外部事件影響,因此通常只會分析最大的突變點。

 另外,若折綫圖的走勢十分不規律,起起伏伏過於頻繁,可以考慮將時間間隔拉大一點。

 查詢結果的時間序列分析:先進行查詢,將查詢結果儲存為新子集,而後進行時間序列分析,如不同語種的走勢分析,又如某一總話題底下的子話題的走勢分析(ex.「陳光誠」底下的#freecgc#的走勢分析)。

 工具:Mozdeh(http://mozdeh.wlv.ac.uk/),Windows系統下的一款無需安裝就可以使用的視覺化數據分析軟體(J: 操作簡易,容易上手,但是挺醜的)。

三、情緒分析

 工具:SentiStrength (http://sentistrength.wlv.ac.uk/ ),為少數幾個爲了社會科學研究而設計的程式,其準確性已達人工水平,因而其效度與人工判讀無異,它的每一項分析方法都有詳盡的理論說明,有助於後續的質性分析。它的情緒詞典,正面情緒詞彙的得分為1(中性)~5(非常正面),而負面詞彙的得分為-1(中性)~ -5(非常負面)

 情緒時間序列分析:記錄公眾的正負面情緒隨時間的波動。

 限制:若有新詞產生,攜帶著某種情緒,引發使用潮流,而未被監測到、或被誤讀時,會扭曲結果。

 解決方法:擴充詞典。

(區分了主觀推文與客觀推文)

與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話:

延伸閱讀

與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵:

□ ___ ______________ _______:

□ __________ □ __________ □ __________ :

□ __________ □ __________ □ __________ :

□ __________ □ __________ □ __________ :

資料狀況: 資料狀況:

□ 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) : 電子檔全文 電子檔全文 電子檔全文

□ 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) :

□ 其他狀況: 其他狀況: 其他狀況:

如有重要相關圖表及附件請在本頁後面,並「其他狀況」項目內註明:二張。

Twitter and Society CH7_朱蘊兒_20140604.pdf