Social Media Analytics
書名(以學術體例詳填資料,網路來源提供超連結及檢索日):
Stieglitz S,Dang-Xuan L, Bruns A, Neuberger C(2014) Social Media Analytics. , DOI 10.1007/s12599-014-0315-7
導讀者:林凱琳
原作摘要:
這篇文獻為新興的社群媒體研究設計一套「社群媒體分析」(SMA)架構,以期未來能對相關的跨學科研究有顯著影響。作者認為SMA可以成為各學科社群媒體研究的方法論基礎,並解決社群媒體效果評估的問題,以協助資訊系統研究發展其決策制定與輔助框架,同時為以社群媒體為基礎的新應用和資訊系統提供架構和解決方案。作者在SMA的範疇下,將研究方法歸納為:文本分析/挖掘(text analysis/mining)、社會網絡分析(social network analysis,SNA),和趨勢分析(trend analysis)三類,提供未來跨學門研究的基石,並呼籲各界訂定SMA研究的議程並致力提升其跨領域合作水準和社群媒體分析的科學方法
重點整理:
一、背景及社群媒體平台應用:
近年來,社群媒體的用戶急速增長,例如2013年臉書有超過十億用戶,而微博單月則有28000萬活躍用戶,隨著社群媒體的使用量增加,社群媒體平臺及相關應用發展出多元形式。廣義而言,社群媒體意指「內容生成、社群間的對話、內容生產的傳播模型」。而主流的社群媒體平臺形塑使用者的溝通形式,進而改變他們的溝通習慣
社群媒體的平臺應用領域廣泛,企業運用內部社群媒體平臺整合公司內部資源,促進組織內部跨部門間的溝通,他們更使用對外的社群媒體,建立企業與顧客的溝通橋樑,塑造企業形象與增加顧客對品牌的忠誠度。政治團體則透過社群媒體框架議題,企圖在訊息互動中建立公共關係,進而增加民眾的政治參與度
隨著社群媒體運用廣泛,各領域紛紛開始關注社群媒體的研究,甚至連應用科學的學者也開始對此領域感到興趣,社群網絡與社群媒體也成為資訊系統(IS, Information System)研究的重要領域。其中,大數據分析的應用成為要角,它負責分析從社群平臺上擷取的巨量資料。博伊德和克勞福德指出,「大數據時代正在進行中。計算機科學家、物理學家、經濟學家、數學家、政治學家、生物信息學家、社會學家和其他學者都迫切渴望獲得接近由人、事相互作用產生的巨量資訊」(boyd and Crawford 2012, p. 663)。
本篇論文指出,各學門學者對社群媒體研究有興趣的原因有二:
一、科技進步,使得持續、自動監測社群媒體的溝通內容成為可能。
二、公共參與的改變,增加溝通環境的複雜度。(傳播者的數量及異質性增加;相對而言在範圍、規模、速度方面有更高階層的傳播,尤其是行動裝置發展快速。)
事實上,最近的學術和研究(商業、政治、公共行政)不斷透露從社群互動內容收集、監控、分析的需求。然而,這些分析被認為是困難的,因為社群媒體平台為數眾多,且資料具有巨量、動態和複雜的特性。(Zeng et al. 2010)分析社群媒體除了上述挑戰,尚有缺乏大數據倫理及系統的跨學科的方法論框架的挑戰。
社群媒體分析(SMA)是新興的研究領域,它與社會網絡分析相似,其研究分析需整合跨領域的知識,例如社會學、統計學、圖形學等,但直至目前,它仍缺乏一套核心理論及固定需要合作的跨學門知識。所以作者在本篇文獻中,企圖歸納一套分析社群媒體的架構,期盼成為各學科研究此領域的基石。
二、社群媒體分析與跨學門的研究方法
近期,計算機科學、統計學、網絡分析、計算語言學等學科,提供各種跟蹤、建模、分析和挖掘技術來解決以往社群媒體數據分析的問題。在SMA的範疇下,研究方法可以歸納為:文本分析/挖掘(text analysis/mining)、社會網絡分析(social network analysis,SNA),和趨勢分析(trend analysis)。
文本分析/挖掘(text analysis/mining)
文本分析/挖掘是內容分析領域的研究方法,它可以支撐研究者從選用的文本及上下文複製及推論出有效的研究(Krippendorff 2004)。由於社交媒體的數據量大規模增長,文本分析中的自動定量成為分析的必要方法。近日,許多研究取徑發展出獨到的社會科學,其中尤為顯著的文本分類法是奠基在「監督式學習」及「非監督式學習」兩種分類(Sebastiani 2002; Liu 2011)。
a. 「監督式學習」及「無監督式學習」
「監督式學習」是從機器學習(例如支持向量機(SVM)、naive Bayesian
classifier)的統計算法,它可以從過去的資料中學習或建立模式,並依歸納出的模式推測新的實例,此研究認為,它有潛力成為自動文本挖掘的標準方法。而「無監督式學習」則指文檔可透過「無監督學習」被群集、分類,其應用諸如分層(hierarchical)和 分群演算法(k-means clustering)。
b. 情感分析/意見挖掘(sentiment analysis/opinion mining)
主題建模部分,因處理自然語言的方法日新月異,因此可提供更為複雜的統計模型來分析文件中的抽象主題,並可以預測未來的主題。其中,「情感分析」與「意見挖掘」為文本分析的重要分支學科,它已成為研究個人意見、態度、評價、情感的獨特的方法。情感分析的方法:依據字典中對於不同詞彙的分類(正面、負面)解讀文本中的情緒。(目前已運用在機器學習上,可根據監督或非監督學習分類,主要分為:正面、負面和中性三種分類)。
限制:雖然自動化的分析方法有很多優點,但情感分析仍面臨諸多方面的問題。
社交媒體中使用非正式的文字內容(表情符號、簡寫、俚語等) ,故自動分析出的語意未必準確,尚須一套由人們訂定的程序來定義製碼者的語意。
社群網絡分析(SNA)
社群網絡分析是透過分析個人、組織、利益集團、國家等之間的連結,而分析出其關係結構。在「社群媒體分析」的背景下,社群網絡分析可以幫助識別有影響力的用戶、意見領袖,以及群體媒體中的相關使用者。
限制:SNA探索資料時,面臨不斷大規模改變集群和動態數據。
趨勢分析(trend analysis)
趨勢分析是運用最新的電腦科學及統計技術預測新興主題。許多趨勢分析是透過隱馬爾可夫模型(Hidden Markov Model,HMM),而其中的主題則是從圖書館中被保存的眾多主題模型探索,類似於將過去主題的生命週期類推至未來。
小結:這篇論文指出,在社群媒體分析的實踐中,有需多問題並非單一分析法或學門能獨立解決,而是需要多種分析方法組合運用,因此,作者認為,社群媒體分析需要發展一套系統框架,針對不同的分析目的而有相對應的方法論。
三、未來的研究方向和跨領域合作
為了解決上述的研究挑戰,未來的研究方向作者認為應有跨學科的基礎。首先,SMA的研究應該致力改進科學方法和技術架構,與追蹤平台、建模、分析的軟體,以及從跨學科的視野來探勘大規模的社群媒體數據;其中,極需以機器學習為基礎的社群媒體文本內容分類與社交網絡模式的辨別來改進,在這方面,計算機科學、人工智能、自然語言處理、統計和網路科學等學科應該最大貢獻。值得注意的是,SMA研究應顧及社群媒體的數據高活躍性以及快速變化的應用設計概念。SMA研究提供了社群媒體研究的方法論給其他學科,尤其是資訊系統中專注於設計操作、使用和將社群媒體作為社會技術系統來管理的研究可能受益匪淺。
根據這些方法、架構和工具集,SMA研究,尤其是在商業用途上,必須解決對應數據驅動的開發、動態決策或決策輔助架構。舉例而言,SMA研究通過添加「社會」這個零件,可以將「商業智慧」延展為「社會化商業智慧」。換句話說,企業的決策架構需要明確的效果指標,而SMA研究應闡述評測的標準,這在資訊系統的研究中是息息相關的。至今為止,效果的量化評估因形形色色的社群媒體而富有挑戰性,為此企業難以判斷社群媒體的投資報酬率,比方說,如何測量社群媒體上公關廣告的有效性依然懸而未決,這事關此類活動的預算分配、目標市場和操作方式的選擇。
另一研究方向,依據研究社群媒體的設計與概念的成果、使用者行為,提供解決方案框架與架構設計,而進行的架構設計和解決方案框架。當涉及到設計和實施基於社群媒體的新應用和信息系統,資訊系統的研究也可能得益於這項研究。
最後,SMA不應僅限於分析社群媒體。相反地,它也應該用於社群媒體和傳統媒體間相互作用和依存,其中還包括非社群媒體的線上內容和活動。譬如一則(網絡)廣告活動可能會刺激消費者產出使用者供應內容和社群媒體活動,反之亦然。
作者呼籲,大力提升跨領域研究合作的水準。這種合作不應僅限於個別研究人員之間的零散合作,而是必須擴展到大規模、經整合的研究活動:橫跨所有社群媒體的研究中利益相關的主要學科,包括社會學、媒體與傳播學、商學、經濟學、政治科學、社會心理學、計算機科學、信息系統,語言學和統計學。這方面的合作必須旨在顯著提升分析社群媒體的科學方法,同時回答不同學科的研究問題。比方在傳播學,有關公共領域和媒介影響的理論,如議程設定、信息擴散、意見領袖、沈默螺旋、審議、對象的分層和群體極化假說、數位落差和不平等的注意力和影響力分配應遷就網際網路和測試的特殊情況。社會科學的理論應該更普遍地與計算機科學、資訊系統和統計等應用科學的方法接軌,反之亦然。
SMA對資訊系統的含義,有兩個對研究議程產生影響的重要層面。首先SMA是個擁有自己研究問題的研究領域,比如:
哪些(不同學科的)方法可以與SMA相容?
考慮到社群媒體傳播的具體條件,如何結合和改良方法?
哪些工具可以輔助研究員蒐集和分析社群媒體的數據?這些工具又能如何被開發?
方法該如何適應不斷變化的平台特性和傳播行為?
如何將(與某一主題)相關的全數資料從整體的網路結構中擷取?
上述的問題的解答多半是沒有普遍性意義的。亦即,是依據實際的研究問題和社群媒體平台決定適當的方法。然而,作者相信所有的問題皆與資訊系統研究有關,於是乎,應該由資訊系統研究者加以解決。
四、雛型系統工作原理的例子
SMA可適用於處理不同的目標,例如:聲量管理(評估公眾對企業的意見)、創新管理、一般監控等。為了支持這些任務,開發一個跨學科的系統的方法框架是有必要的。然而有其挑戰存在。
第一個面對的挑戰是根據所定義的目標跟蹤相關數據。由於資料追蹤的管道多元(keyword、actor、URLrelated等),不同的數據有不同的跟蹤途徑。社交平台上的API,RSS或HTML解析,可用於跟蹤社群媒體的結構化數據(鏈接、追蹤)或非結構化數據(文本內容)。目前已經存在的各種跟踪工具流行的社交媒體平台,如微博和Facebook,然而,作者認為,有必要開發或修改一個工具以利集中所有必要的數據。
蒐集、跟蹤資料後,數據需要被預先處理,例如通過手動除去垃圾或根據過濾器。適當的分析方法,例如統計分析如回歸分析、社會網絡分析(情感、內容、趨勢分析),和分析工具(Gephi、SentiStrength等)都將根據所研究的問題選擇。
選用靜態或動態數據分析的時機
「靜態數據分析」可能被有效地識別的數據集中特定詞語,而「動態數據分析」則可用於了解隨著時間推移的問題演變。