Sentiment analysis and time series with Twitter
水火計畫讀書會目摘要單 水火計畫讀書會目摘要單 水火計畫讀書會目摘要單 水火計畫讀書會目摘要單
書名(以學術體例詳填資料,網路來源提供超連結及檢索日) Weller, K., Bruns, A., Burgess, J. E., Mahrt, M., & Puschmann, C. (2013) Sentiment analysis and time series with Twitter. Peter Lang. Chapter 7
導讀者:朱蘊兒
原作 摘要: 摘要:
時間序列與情緒分析可用於分析趨勢、興趣及情緒的變化
重點整理:
Junior’s劇透:這篇文章有點像推銷自家研發的軟體的教育型廣告文,從大體上爬梳了Twitter的情緒分析與時間序列分析的幾個研究方向及研究方法如何操作,並介紹了英國Wolverhampton大學研發的收集與分析Twitter資料的軟體,儘管這篇文章並未對這些研究方向做進一步的分析或批判,但其實用性很高,可以在想不清研究問題、捋不清研究方法的時候拿出來參考。
Microblogs可提供更有效的輿情監測的原因:
1. 有可靠的時間標記;
2. 使用門檻低,因而普及率高,更具有代表性;
3. 為公開資料。
Microblogs相較于之前的媒體的特性:
1. 相對於部落格,微博客更易於凝聚人氣、注意力,形成公共議題,ex.在Twitter誕生前,2005.9~2006.1都沒有什麽公共議題足以吸引大眾注意力;
2. 可以跨越地理限制,整合訊息,ex. Twitter及時讓三起校園槍擊事件的訊息匯流,讓受眾可以瞭解事件全貌;
3. 可以用趨勢分析的方法來預測議程的未來走向;
4. 可以用時間序列的方法來分析情緒或議題熱度的歷時性變化,ex. 預測選舉結果;
一、創建語料庫
資料來源有二:一是直接購買,二是通過一段時間的監控,自主抓取資料,這篇文章要討論的是如何實現後者。
流程:建立查詢條件(涵蓋全體、避免雜訊)→測試查詢→持續收集資料→處理資料
Twitter API的限制:只允許抓取兩周以內的資料,並且設定了一個撈取數量的上限,因此它無法撈到全部資料,只能將其視為母體的一部份樣本;
解決方法:設計程式,自動定時抓取,及時存儲,推薦使用Webometric Analyst (http://lexiurl.wlv.ac.uk/)
倫理問題:作者認為Twitter資料屬於公開資料,不涉及隱私,因此倫理上沒有太大的問題,但還是要盡可能避免直接公佈這些內容,因為可能會影響研究對象的私生活;
視覺化:推薦使用Topsy Analytics(http://analytics.topsy.com/)
網站有三個主功能:Search、Analytics(時間序列)、Trends(最夯的Link/Tweets/Photos/Videos,可選擇「中文」的貼文)
二、時間序列分析
簡單時間序列分析:從前中后期分別抽出一部份樣本資料,進行內容分析、分類,然後比較時間序列上,不同類別的表現如何;
圖形化時間序列分析:通常以一小時為間隔,繪製某類話題推文數量隨時間變化的折綫圖,ex.倫敦騷亂,可以有以下幾個觀察的重點:
初始上升點、最高點、下降點、恢復點 事前事後比較,公眾興趣是否有所提升?(最後恢復的常態值是否比事前高)關注度的增長或遞減是否為勻速?或有突變?突變是由於哪個事件引發的?(回溯文本,有時突變也會是因為垃圾廣告引起的)
注意:突變也有可能是資料的自然變動(natural variation,?)所產生的,未必是由於外部事件影響,因此通常只會分析最大的突變點。
另外,若折綫圖的走勢十分不規律,起起伏伏過於頻繁,可以考慮將時間間隔拉大一點。
查詢結果的時間序列分析:先進行查詢,將查詢結果儲存為新子集,而後進行時間序列分析,如不同語種的走勢分析,又如某一總話題底下的子話題的走勢分析(ex.「陳光誠」底下的#freecgc#的走勢分析)。
工具:Mozdeh(http://mozdeh.wlv.ac.uk/),Windows系統下的一款無需安裝就可以使用的視覺化數據分析軟體(J: 操作簡易,容易上手,但是挺醜的)。
三、情緒分析
工具:SentiStrength (http://sentistrength.wlv.ac.uk/ ),為少數幾個爲了社會科學研究而設計的程式,其準確性已達人工水平,因而其效度與人工判讀無異,它的每一項分析方法都有詳盡的理論說明,有助於後續的質性分析。它的情緒詞典,正面情緒詞彙的得分為1(中性)~5(非常正面),而負面詞彙的得分為-1(中性)~ -5(非常負面)
情緒時間序列分析:記錄公眾的正負面情緒隨時間的波動。
限制:若有新詞產生,攜帶著某種情緒,引發使用潮流,而未被監測到、或被誤讀時,會扭曲結果。
解決方法:擴充詞典。
(區分了主觀推文與客觀推文)
與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話: 與本研究問題意識相關的概念延伸對話:
延伸閱讀
與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵: 與危機傳播相關之鍵字及其概念內涵:
□ ___ ______________ _______:
□ __________ □ __________ □ __________ :
□ __________ □ __________ □ __________ :
□ __________ □ __________ □ __________ :
資料狀況: 資料狀況:
□ 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) 電子檔(摘要/全文) : 電子檔全文 電子檔全文 電子檔全文
□ 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) 紙本(摘要/全文) :
□ 其他狀況: 其他狀況: 其他狀況:
如有重要相關圖表及附件請在本頁後面,並「其他狀況」項目內註明:二張。