Doing Social Media Analytics

書名(以學術體例詳填資料,網路來源提供超連結及檢索日): 

Brooker, P., Barnett, J. and Cribbin, T. (2016) Doing Social Media Analytics. Big Data & Society, 3 (2). pp. 1-12. ISSN 2053-9517 

導讀者:林凱琳                      

原作摘要: 

「大數據」研究問世至今,將社群媒體作為資源和工具的分析成果已經與日俱增;然而,較少有研究著力於開發社群媒體數據的處理方法,其中為數不多的研究多加注「隆重」的社會科學方法於新興的社群媒體研究之上,亦即,專注於抽樣、效度、倫理等普遍性議題;與之相左地,本文提出一套溯因(歸納)導向的方法論,旨在探索社群媒體現象的建構。為此,本文使用軟體工具「Chorus」來展示一套資料視覺化分析的途徑。通過視覺分析原理,本文假設一個二乘二社群媒體分析的方法模型,將兩種數據收集策略與兩種分析模式相結合。甚者,本文實際操作這四種途徑,以示範它們如何以及為什麼能被用來解決各種研究問題。 

重點整理: 

社群媒體不斷擴張的日常使用為社會科學家提供了一個重要的數據資源。當今的研究員擁有足夠的運算工具和理論來釐清社群媒體數據,但想倚靠方法論提出具有意義的解釋依舊捉襟見肘。本文針對這項挑戰,展示了視覺分析途徑,捕捉和探索質化和主觀面向的 Twitter 數據,作為社會技術研究集合的價值。本文以實證範例展示了四種分析的方式:2011 年媒體在英國大腸桿菌食品恐慌中扮演的角色、速效注射型腎上腺素之用戶體驗、牛結核病與英國的獾社會運動和囊性纖維化患者中的症狀報告。 

 

Twitter 既有的社會科學途徑 

許多 Twitter 研究專注於理論或實證研究,方法論終於開始得到同等的重視,作為此類研究的三大面向之一。許多重要著作,以社會科學中屹立不搖的總體方法,諸如抽樣、人口統計、代表性和資料品質等面向,對 Twitter 數據分析研究提出質疑。基於前人之作和社群媒體固有的新穎性,本文探索更適合社群媒體的分析方法。 

 

有學者對社群媒體數據審視能力提出質疑,本文對此提出了反質疑:「既然社群媒體本質上有別於傳統資訊的形式,過去方法論的思維是否適用?」作者承先啟後,探索更適合社群媒體固有新穎性的分析方法。因此,本文較少著墨於大數據的總體趨勢分析,轉而挑戰「推文」構成資料的過程:基於對推文更詳細的解讀,主張一個更加質化的途徑。淡化了效度和抽樣等標竿的重要性,並探索在龐雜不精確的推文內容中,進行資料採礦的可能性。 

 

倘若研究主體是總和雜亂因素交織的產物,在認知上,學者對於現實建構的描述無可避免地只有援引學者自身建立的組合。因此,本文致力透過方法論中的工具使上述因素產生研究成果的方式透明化。在這種模式下,本研究逐漸開始看出和檢視用戶、算法、真實生活中的事件和其他社會因素共同成為公共知識和對話的工具的過程。為此推進了一種「視覺分析」途徑,以促進剖析 Twitter 和調查過程的社會學技術組合。 

 

理解 Twitter 數據的視覺分析框架 

視覺分析整合了資訊視覺化和運算模型兩大領域的技術,並早已在社群媒體分析中做出顯著的貢獻。研究員可以轉變視角或創造新的視覺化來進行資料探勘以進行更好的質化分析。 總合的思維(視覺分析途徑)為研究者提供了一條反映及調和現象和研究,作為主觀事業的角色。本文為四個排列結果提供了一個實證範例,亦即它們可用於的研究問題類型和它們可能揭露的洞見。 

 

資料蒐集 

Twitter 的應用程式介面(用戶取得 Twitter 資料的技術)允許用戶取回一系列的資料和相關數值。本文概述兩種收集這類資料的途徑: 

一、應用語義的關鍵字查詢(即字詞、標籤和網址)作為編譯資料集的標準 

二、用戶追蹤的策略,討論用戶群擁有的時間軸資料 

1.語義導向的資料取得(關鍵字查詢) 

這類資料以推文內容的語義作為起點,研究過程可能因此開始辨認推文的主題及興趣所代表性的關鍵字,並用邏輯運算子來定義範圍。撈出的資料擁有特定主題導向的語義本質,同時保有一定的靈活性(可能包括替代的詞來、配合與主題有關的不同推文表現形式)。 

2.用戶導向的資料取得 (用戶追蹤) 

用戶導向的資料是由用戶群的推特周邊活動生成。這涉及到辨識貼文與研究問題相關的用戶、提取 Twitter 時間軸與篩選相關的主題。這種途徑對於難以定義的關鍵字查詢(推特用戶於研究者感興趣的領域使用隱晦、非正式、口語)或是理解在廣泛的關注中特定議題的角色,其價值是相當有用的。雖然這個策略讓研究者能不縮小關鍵字範圍,就了解特定族群正在發表的推文內容,但在分析研究主題的多樣性上提供了挑戰。 

 

數據分析 

作為上述資料收集策略的互補,本文提綱了兩個 Twitter 數據的分析方法:時間和語料庫分析: 

 

1.  時間分析(以事件為基礎) 

Twitter 的數據可以被視為暫時展開的敘述。研究人員可以從中得到事情的見解:例如情緒在談話過程中演變積極或消極、討論中的詞彙轉換、在推文中引用URL 的可能變化等。因此按時間順序的觀察有助於探索事件,因為他們在 Twitter上隨時間而蔓延展開。 

 

2.  語料庫分析(以主題為基礎) 

相對而言,與料庫分析不管它們在時間中如何被表達,而是依賴於蒐集整個概念的數據集作為信息空間的語義特徵(單詞、主題標籤等)。研究人員可以從局部結構的探索或從整個數據的湧現,調查關鍵字及其一起使用的方式,形成更廣闊的主題。Twitter 語料庫分析的數據有助於探索主題。 

 

四個實證範例 

  

本文概述 Chorus 將數據視覺化的使用,以及簡要描述 Chorus 如何構建這些視覺化,因為他們幫助創造數據集合中的形成因素。Chorus 首先建立一個「詞」包含所有重要語料庫的索引,集中每個 tweet 中的單詞數據。不太重要的詞(例如a,the,and 等)、特別罕見或常見的術語將從分析的指數中刪除,以下為標準:超過全篇貼文 50%或少於 0.1%,或兩個 tweets(取大者)被刪除。 

這個指標矩陣計算 tweet 和術語的相似度(使用餘弦或標準化的累積度量)。Chorus 還得出一個字的間隔矩陣,tweet 術語矩陣的聚合版本包含在每個指定的時間間隔(秒、分鐘等)的標準化(0-1)頻率,這用於計算各種時間統計。時間線圖(圖 1 和圖 5)顯示各種統計數據包括:tweet 聲量、tweet 比率包含 URL、積極情緒、消極情緒、術語的新穎性和術語的同質性。集群地圖視覺化(圖 2,3,4和 6)使用詞索引來計算詞之間的距離與它們的上下文相似性的比例,即詞傾向於一起發生,其位置靠得更近。相關詞凝聚成集群,提供專題概述和導航的基礎數據集。 

 

一、 語義驅動數據的時間分析 

透過時間(或事件)的觀點,在編年表上標出一個語義驅動的 Twitter 資料,記明確定的貼文時間(Created At field)和相關貼文的順序(Tweet ID field)。數據中心的語義驅動性質對話的指定統一方面的分:hashtag 特定用戶帳戶等。以及相關屬性(如 tweet 聲量)tweet 與 tweets 的比率、鏈接、情緒分析、語義同質性等。重點是資訊如何隨時間在各種數據中波動或維持,提供觀察人們如何使用 Twitter 報導事件的洞見。 


案例:媒體在談論英國 2011 大腸桿菌的食物恐慌中扮演的角色 

關鍵詞:「大腸桿菌」及其相關術語 

資料描述:大約三個月期間(5 月中旬到 2011 年 8 月中旬),19,998 條推文 分析:不同時期構成「大腸桿菌的恐慌事件」的推文(圖一) 它基於一個「事件」的特徵敘述,通過展開的時間順序揭示關鍵時刻。2011 年 5 月 11 日至 2011 年 5月 23 日為事件的預兆,但這期間小規模的地方新聞等幾乎沒有提到「大腸桿菌」,但新穎性詞彙頻頻出現。2011 年 5 月 24 日推文的新穎詞彙明顯減少,2011年 5 月 24 日至 2011 年 5 月 30 日期間開始有新聞的相關傳播,並由新聞媒體導向一般談話(76%~90%的推文為有附帶網址)。2011 年 5 月 30 日至 2011 年 6 月10 日,推文聲量大幅增長,URL 的比例大幅下降。研究發現,人們用不同的詞彙討論大腸桿菌(新穎度總量的上升,同質性量度下降)。 

 這裡的推文是情緒化的內容,而不是事實,並且在這一點上,大腸桿菌開始成為Twitter 上廣大群眾用以表達焦慮、徵求意見、對患者和死亡人數表達同情等的熱詞。通過這個分析,我們開始分解 Twitter 上的事件成為依賴於時間具有不同特徵的時期。依據資料年表,我們可以在 Twitter 放置一個展開的對話,可以雙重的告訴我們眼前的事件以及推特實踐的變化。 

 

二、 語義驅動資料的語料庫分析 

語料庫(或基於主題)的語義驅動 Twitter 資料旨在揭整個構成語義的資料集。這被實現在「Chorus」中,並以術語「共現的視覺化模型」(Cluster Explorer)表示。這種模式的分析可以用來發現子主題以及圍繞在原主題周圍的關鍵字標

準。為了進一步探討這些局部的集群,我們使用的群集圖(cluster maps) (圖 2、3、4、6),在推特上觀看哪些術語經常在相近的位子出現。距離相似性的隱喻使主題的結構在地圖的訊息空間內出現(clusters, hubs, branches)。 然而時間的觀點是基於事件的(由於選擇以離散間隔來查看數據),語料庫視覺化是基於主題,使得研究人員能夠更深入地研究 tweet 的主觀內容。 

 

案例:腎上腺素自動注射器(epipens)的用戶體驗 

關鍵詞:epipen(一個流行品牌的手持醫療設備,用於管理腎上腺素過敏反應) 

分析:雖然數據收集方法是相同的(關鍵字搜索),但相較於大腸桿菌案例,epipens 數據集恰當地以不同方式處理。在這種情況下,我們事前並不知道哪些是我們感興趣的重要時間順序;相反,我們想要先探索 epipen 用戶每一天的體驗問題。相對而言它是一個較低聲量的數據集(68 多天 4000 條推文),且幾乎沒有收斂於單個子主題。 

 

發現圍繞 epipen 設備的用戶體驗討論的分支方向,從較大的中心節點(圖 2 的左上方)分支檢查這些分支發現帶有 epipens 的配件。 跟蹤討論回到詞根(root term),其中主題與其他分歧線,我們看到「legbuddy」和「waistpal」(腰部)(指攜帶產品 epipen 方便)是製定一個獨特的「設備和用戶體驗」分支的關鍵(圖 3)。 

 

圖 4 顯示顯示推特使用者所使用的字詞「cases」與產品 epipens 的物理術語有關。在這裡我們看到 epipen 案例的用戶體驗大多是負面,並且涉及到他們的相應的設備大小。這種分析模式允許我們探索更廣泛的興趣議題,而非僅仰賴簡單的術語頻率來引導我們特定的研究方向。以這種方式在集群地圖上瀏覽,分析人員可以篩選「乾草堆中的針」的數據,在這裡提供更正式的關鍵詞查詢(weight 和 size)顯示 epipens 的用戶體驗。 

 

三、用戶導向資料的時間分析 

使用者驅動數據的時間(或基於事件)分析可以找到不同選擇中的各種興趣用戶組合,藉由年表的數據分析,引出各種功能的敘述,例如詞頻、URL 連結的使用、情緒、新穎性和對話的同質性等,其波動隨著時間推移。 

 

我們抓到時間表中的人可能顯示我們預設有興趣的其他領域,並從中選擇可以舉例說明的使用者。資料從而代表擴散的主題,而感興趣的話題嵌入其中。重點在於分析某時間區段內使用者群(user group)收斂或偏離一些問題或事件的位置。以這種方式,時間及使用者驅動的數據共同集合成一篇描述性的故事,使用者群所表達的問題演變和挖掘超越以語言導向帳戶(accounts)的關鍵詞頻。 

 

案例:英國的 bTB 和獾活動(bTB and badger activism) 

分析:撈到的時間包括關鍵時刻:2013 年 8 月 27 日公佈剔除獾的程序。最大的間隔在數據集(圖 5)2013 年 8 月 27 日,此期間新穎度的量最低,而在 Defra新聞稿發表的前幾天,tweets 的內容高度收斂於公告的剔除。此外,不是每個tweet 包含原始內容,通常活躍使用者會多次推文相關想法和鏈接。這反映在重要的 2013 年 8 月 30 日,看到某些推文的趨同以傳播他們的消息,除了幾個明顯的詞 badger、cull,make、save、iTunes 則被用來吸引非活動者的辯論(即通過簽署電子請願書鼓勵「拯救」獾,並透過 iTunes 購買 BrianMay 的新反財富的慈善單,嘗試將它製成圖表)。 

 

總體來說,我們的 15 個行動者表達不同的興趣,它們並不完全與獾的剃除辯論相關聯,但也不構成其中的一部分。我們開始感覺到他們在多樣的議題環境中以其廣泛的興趣成為一個「積極分子」。很明顯,獾的剔除活動主導他們的言說,但是我們可以從使用者驅動的數據中了解構成這種對話的人及他們的做法。 

 

四、用戶導向資料的語料庫分析 

語料庫途徑的用戶導向資料收集,能避免既有知識(人們對給定主題的推文方式)的匱乏。有鑒於部分研究無法事先確定有效的關鍵字查詢標準;準此,該分析模式旨在全面探索資料集的主題結構,通過集群知覺圖顯示興趣的連接條件,以得知不同用戶群的推文會觸及哪些事物。 

 

案例:囊腫纖維症患者的症狀報告(和患者家屬) 

我們使用 Chorus 的數據收集工具從囊腫纖維症(CF)新聞帳戶的追隨者選擇用戶驅動的數據。蒐集當時的追隨者人數超過 6000 人,在大約六個月的時間內(2013 年 2 月 14 日至 2013 年 8 月 23 日),總推文數超過 300 萬。為了讓分析

更容易處理,我們從每日推文的最底端開始過濾資料集(範圍為 0.01 至 29.36)。我們分析聚焦於前 1797 個用戶(他們每日的平均推文次數介於 0.01 至 0.61 次,共產生 282,129 條推文)。. 

 

這可以被進一步細分為兩半資料集:資料集 1( 141,063) 和 資料集 2 (141,066),以減輕處理視覺化相關計算的負荷。在這裡我們有興趣的是在定位和瞭解患者每日的囊腫纖維症經驗,以識別在非正式醫療報告中那些問題是重要的。這種方法使我們能夠發現我們感興趣話題的觀察用戶,他們甚至超出原本預期的觀察對象。探索 cluster map 顯示了各種各樣的話題,反映了每天用戶對話的性質。 然而,顯著的聚類的關鍵話題發生在術語「organ」和相關術語「double」、「lung」和「transplant」。在此群集的圖片說明了移植談話與肺部有顯著相關,這可能高度被預期在囊腫纖維症患者中。確定了這個集群之後,我們能夠繼續向下研究並發現了一組圍繞不同主題的 tweeting。 這裡,推特用戶例行的參與個人通訊以表達和接收對 CF 患者的關注(已知正在等待或正在進行雙肺移植手術和恢復)。這些同樣的推特使用者也利用移植手術的情節介紹重要的相關問題(如術後護理和器官捐獻者寄存器)。 

 

除了他們的人際溝通,這些推特用戶也積極使用公開可見的 Twitter 來幫助、鼓勵他人認識的 CF 患者,並積極參與行動(即註冊為器官捐獻者)。 我們基於主題的方法揭開了一些很難找到的關鍵問題與關鍵字,給定「移植」的詞,很可能在 Twitter 上發現比我們認為相關、更廣泛的 CF 患者。 我們當時能夠調查這個主題包括的選擇用戶組並探索主題的結構和通過這些用戶的 tweeting 實踐實現。 

策略的選擇 

考慮到前述兩種資料取得模式的不同特性,評估兩者在情境使用上孰優孰劣是實用的。語義導向資料的收集適合統一的(幾組)已知術語及反映用戶使用術語的會話(而非用關鍵字人工過濾數據來創造一個主題)。鑑於這類數據的重點性質,可以洞察更廣泛的趨勢,像是預測選舉結果。反之,用戶導向的資料對於特定群組的不同推文主題的多樣性更加敏感,相較於語義導向的資料它較不集中,但研究者能夠歸納出相關的慣見字和主題。策略的選擇應是個取決於研究問題的數據導向過程,這需要對不同資料的收集和分析方法進行實驗。若是實際動手收集資料,研究者會發現自己更理解如何處理資料分析。 

 

同樣地,分析工作應該從一段勘察期出發,以探明數據是否適用於基於事件或基於主題的分析。起初,資料的視覺化和摘要是具有啟發性的:是否存在獨特的事件?其中是否有有趣的現象?抑或資料集展示的按時序排列主題語料庫無法找到有見地的發現。 

 

摸索過程可能會持續在(表 1)中提領的四個儲存格中迭代,最終結果是研究者將發現自己有一組研究問題和合理地包含這些問題的答案的資料集,及分析方法以提煉出這些答案。這種迭代過程是視覺分析的精髓。本文透過假設四個實證示例作為更深層迭代的基礎,演示了視覺分析應用於社群媒體研究項目的價值。作者設想這套方法論成功運行的一個例子,是本文對囊腫纖維症患者經驗的用戶導向語料庫分析研究,並發掘了一個關鍵字「囊腫纖維症患者(pwcf)」,甚至也許能作為查詢關鍵字搜尋的基礎,以觀測術語「囊腫纖維症患者(pwcf)」周邊的主題變化(即語義導向資料的時間觀點)。不幸地,出於本文當前的目標,作者不得不在範例中避免儲存格切混的迭代工作,而是為每個儲存格創造一個例子,以清楚劃分每一種途徑。儘管如此,作者希望讀者能夠欣賞在框架的儲存格中迭代的價值。 

導讀_ Doing social media analytics .pdf