探索性資料分析(EDA)與在Twitter資料上的應用

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):探索性資料分析(EDA)與在Twitter資料上的應用

1.  Tukey JW (1977). Exploratory data analysis. Reading : Massachusetts, Addison-Wesley.

2. Brooks, M., Robinson, J. J., Torkildson, M. K., & Aragon, C. R. (2014). Collaborative Visual Analysis of Sentiment in Twitter Events. In Cooperative Design, Visualization, and Engineering (pp. 1-8). Springer International Publishing.

3. Cheng, D., Schretlen, P., Kronenfeld, N., Bozowsky, N., & Wright, W. (2013, October). Tile based visual analytics for twitter big data exploratory analysis. In Big Data, 2013 IEEE International Conference on (pp. 2-4). IEEE.

4. Lin, J., & Ryaboy, D. (2013). Scaling big data mining infrastructure: the twitter experience. ACM SIGKDD Explorations Newsletter, 14(2), 6-19.

導讀者:李欣穎

摘要:

本次導讀首先介紹探索性資料分析(EDA)的意涵與概念,接著以Twitter資料為例,為各位分享在Twitter資料上應用EDA的步驟與視覺化方式。最後分享Twitter內部的數據分析工程師如何將組織戰略目標操作化為具體的EDA步驟。

重點整理:

探索性資料分析的定義

  「探索性資料分析」(exploratory data analysis, EDA)此一說法源自John Tukey,他在1961年對探索性資料分析提出了定義:

用於分析數據的程序、用於解釋(用於分析數據的)程序的結果的技術,或是規劃數據的收集的方法,使數據更容易被更精確或更準確的分析。這裡的程序都應適用於分析數據(在數學上)的統計結果(Tukey, 1977)。

  換句話說,EDA是一系列的方法,用來分析數據集,概括呈現數據集中的主要特點,而且經常透過視覺化的方法呈現。對分析者而言,可以使用或不使用統計模型,但EDA主要的用意是要幫助分析者發現數據中與過往的習慣、模型、常態分佈不同的地方,或是可以針對分析前的假設進行檢驗。Tukey鼓勵分析者以此概念探索數據,並希望分析者認知到,當他們提出某項假設時,這些假設可能會讓分析者需要蒐集新的數據,或是進行新的實驗。

探索性資料分析此一概念的發展

Tukey認為,統計學者過分強調了在統計中進行假設檢驗(驗證數據分析)數據分析者應該在對數據進行假設檢定之前,對數據進行測試。Tukey認為,在理解數據之前就對數據進行假設與檢驗,會由於數據中固有的問題而導致假設檢驗結果出現系統性的偏差。

基於上述的考量,Tukey認為EDA的目標是:

  根據在數據中所觀察到的現象,猜測其原因,並據此提出假設

  評估這裡的假設,是基於何種統計推斷的結果

  選擇適當的統計方法、工具或技術,可以對假設進行驗證

  透過調查或實驗,進一步的收集數據

近年來,許多EDA的技術已被採納到數據挖掘、以及為大數據分析的架構中,如。EDA的概念也成為青年學生學習統計思想的的一種方式。

案例一:分析Twitter中的情緒資料

 

美國西雅圖華盛頓大學的Brooks教授及其研究團隊開發出對Twitter進行探索性資料分析的工具「Agave」,其四個主要特點:(A)以時間軸視覺化不同時間的數據,(B)使用數據過濾器來優化搜索結果,(C)顯示推文的細節、用戶和關鍵字的列表,(D)與其他使用此工具的用戶進行交流。

 

在此工具中,時間軸可以轉換為不同的顯示模式,如上圖為情緒模式,呈現不同情緒的推文則數與百分比,共分為正面,負面和中性。負面以紅色顯示,中性是灰色的,而正面則是藍色的。曲線頂部代表推文的整體篇數,由情緒類型來劃分。底部為情緒聲量佔總聲量的百分比。

在此工具中,時間軸下方的標籤面板(C)會依照選定的時間範圍和過濾條件,顯示推文、用戶和熱門關鍵字。縮放或平移時間軸,可以按照時間範圍更新面板上的推文內容。在顯示出來的推文上,使用者還可以對關鍵字、作者、情緒進行篩選。用戶可以設定兩組篩選條件,對比不同條件下數據所產生的差異。

案例二:基於地圖的Twitter資料分析

 

視覺化的地圖投射分析,能提供比地圖或交叉熱圖更豐富的見解。通過結合標記(hashtag)的地圖投射熱圖,我們能夠生產出視覺的分析,允許動態的分析、探索地理區域上新出現的推文。本文作者Cheng, D所任職的公司Oculus位於加拿大,發展出名為「磚塊」的視覺化方法,將Twitter中的標記(hashtag)覆蓋到地圖上,計算出如圖示中前五大主題標籤的地理區域。Cheng將此類分析稱為「聚合標記」。當用戶放大地圖時,會顯示主題標籤和它們出現的地理區域。

案例三:Twitter內部公司員工是如何進行EDA的

  本文作者為任職於Twitter的工程師,至2013年公司已擁有超過一千名員工,每一天大約有100TB級的原始數據被蒐集到Twitter的Hadoop資料庫中,由來自幾十個團隊的工程師和數據科學家,對數據進行數以萬計的Hadoop作業。這些工作從數據清洗,聚合整理和報告生成,藉此建立由數據驅動的產品或訓練程式,提升Twitter的表現、進行垃圾郵件檢測、提供跟隨(follow)推薦等服務。

  在進行EDA之前提出問題

  假如組織的戰略目標為「我們需要加快用戶數量的增長速度」,數據科學家的任務是將上述模糊的戰略目標操作化到數個具體的指令,並藉由探索性的數據分析回應組織的戰略目標。分析者會考慮以下的問題:

  用戶登出/登入的時間分布?

  用戶什麼時間會頻繁的使用?

  用戶通常使用Twitter中的哪種功能?

  不同的用戶(類型)之間的行為有何不同?

  與用戶行為相關的網絡有什麼特點?

  用戶的行為如何隨著時間而改變?

  例行性的EDA工作流程

  傳統上,大多數的資料需要匯入線上分析程式(online analytical processing, OLAP)。常見的分析流程包括對多個數據集進行蒐集,轉換和補充資料(extract, transform, load, ETL),增加資料欄位、增加過濾條件、資料整合、轉換成矩陣等。統計學家可以使用「描述性統計」來描述這種類型的分析。這些分析結果可以輸入報表生成器、即時儀表板或其他視覺化工具,這些工具支援常見的「收起」和「深入」等多維度的數據操作。

  然而,今天的「數據科學家」的工作要做得更多:他們對預測分析感興趣,包括利用機器學習技術,培養用戶行為的預測模型;判斷一項推文內容是垃圾郵件;判斷兩個用戶彼此是否應該成為「朋友」;用戶感興趣的相關商品等。其它可能的分析方法或功能包括資料採礦(通常是非結構化的資料)、分析數據規律或群聚,從簡單的K-means聚類到多種方法一起使用,如潛狄利克雷分配或其它貝葉斯方法(Dirichlet allocation or other Bayesian approaches)。

與本研究問題意識相關的概念與延伸對話:

一、 作為社交媒體數據分析的研究取徑:

水火團隊對重大事件的社交媒體數據分析已行之有年,其問題導向、「向運算轉」的分析步驟與圖表輔助的資料探索過程與「探索性資料分析」的概念相符。在論文中對探索性資料分析的概念加以解釋與應用,可使團隊著作的研究架構、方法論更為嚴謹。

二、 做為水火團隊開發資料分析平台的描述架構:

水火團隊所開發的社交媒體數據分析平台多樣,本次導讀中,展示了一種Twitter資料分析平台在學術文章中的說明方式與說明順序,可作為本團隊在論文中解釋所開發之資料分析平台的描述架構。

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

資料狀況:

■電子檔(摘要/全文):           

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。



探索性資料分析(EDA)_Twitter的應用.docx