Content Analysis in an Era of Big Data: A Hybrid Approach to Computational and Manual Methods

水火計畫讀書會書目摘要單

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

Lewis,S., Zamith, R., and Hermida, A.(2013). Content Analysis in an Era of Big Data: A Hybrid Approach to Computational and Manual Methods. Journal of Broadcasting & Electronic Media, 57(1), p34-52.

導讀者：陳泓勳

原作摘要：

傳統以人為主的內容分析方法受到Big-Data的挑戰，電腦運算提供了一個可能的解決方案，也因此本研究主要希望提出一個混合的取徑，結合電腦運算與人工方法，補足彼此之不足，進而得到更有效率與可信的成果，並以一個個案研究來說明。

重點整理：

社群媒體的興起，成為傳播與資訊研究的新領域。但若以傳統人工的內容分析法來研究SNS的大量資料，顯然效率太低，而運算法（computational）仍無法分辨語言中的細微差異與潛在意義，也因此本研究希望找出兼顧演算法的精準，以及人工方法的脈絡意識（contextual awareness）的新取徑，以確保分析big data的效率與品質。

文獻回顧

內容分析

傳統內容分析法如何研究網路文本，目前仍有許多爭議，像是海量資料中如何確定樣本代表性？如何界定分析單位？編碼者分析文本的信度（McMillan, 2000; Weare & Lin, 2000）？因此學界開始著重數位時代中，傳播具有的結構特性(structural feature，例如Twitter中的hashtag)，和其外在的社會-文化脈絡(socio-cultural contexts)之間的關係。但同時研究者也對於何時又如何抓取資訊流感到棘手，且資料常在公開與私人之間跳動難以完整撈取，且透過API撈取會有”隨機”的問題，但研究者卻無法處理，顯然有代表性問題。

運算法

Big-data同時也引起了認識論（知識如何組成？）與道德（使用者的隱私保護？）等問題，也有人認為網路研究的深度與廣度不再能兼顧。運算法可以用來將資料切成小塊進行分析，依照主題或是時間，使分析較為容易；另一方面，編碼也可以運用字頻分析、與視覺化分析他們的共同出現關係。但如此一來將只淪於表面的分析，犧牲更多文本的內在意義。

混合取徑

Sjøvaag等人（Sjøvaag, Moe, &Stavelin, 2012; Sjøvaag& Stavelin, 2012）建議可以將computational加上manual的取徑，為了凍結資訊流，他們以此方法研究Norwegian-Broadcasting Company，蒐集了七萬多筆新聞，以及部分首頁的圖片與資訊。分為兩方面：1.以電腦計算，著重在網頁特徵，如超連結、影片、讀者評論。2.以手工編碼，約兩千則文章，著重在情境特徵，如新聞主題、類別、sidebar內容、主題連結。他們認為，電腦運算法可以確保計算網站特性元素時的品質、精準度、與規模，而練習內容分析時也可以幫助評估分類適切與否。

這一取徑，以運算分析方法來看新媒體的結構特性，並以手工編碼仔細觀察社會-文化情境特性，進行有效的分析。作者相信，未來許多研究應該以混和電腦運算與人工的方法取徑，來做新媒體的內容分析。

個案研究

此個案研究建立在news sourcing應用於社群媒體空間的文獻，並著眼於Andy Carvin在網路上新的新聞實踐腳色。

社群媒體與news sourcing

傳統新聞系統性地偏向有權勢的消息來源，SNS成為一般人的資訊流通平台，Twitter方便記者尋找可能的消息以及蒐集資訊，與消息來源互動、而不用出辦公室。本研究取徑定義Twitter奠基於Broersma & Graham，他們認為是：一個虛擬的社會關係網絡，使記者可以參與其中並針對特定主題進行蒐集新聞與資訊；而本研究更進一步指出：Twitter同時是newswire和newsroom，即時更新新聞素材，也提供公眾協力處理資訊的機會。

不同於傳統主流媒體的守門，網路是去中心、由網民們以RT等方式進行內容守門，像是Papacharissi & de Fatima Oliveira 認為埃及革命時使用者以RT讓另類聲音發聲。這些研究發現指向，不再是以文字頻率來分析、而應該以數位原民的取徑來衡量內容，也就是以多少人閱覽、回復、RT，來做內容分析。Twitter的科技結構使研究者可以針對newswire和newsroom兩個層面深入，如從RT看消息來源、mention看互動過程。

Andy Carvin

透過分析National Public Radio的Carvin在突尼西亞與埃及革命期間在Twitter上的活動，研究者試圖探討社群媒體如何提供一個記者與大眾共同協作的新聞平台，並擴展新聞行動者的範圍與種類。Cavin在阿拉伯革命期間，在Twitter上扮演資訊中介的角色，透過回應與互動，而有更廣的消息來源。研究者希望界定兩個變項：1.互動類型：互動是RT或是mention？ 2.互動的來源類型：修正之前Lotan等人（2011）對行動者的分類。

本研究發現指出，在他的Twitter上，非菁英的消息來源擁有高過記者或其他菁英來源的影響力，非菁英的行動者只佔了他消息來源中的1/4，卻發布了近一半的訊息。本研究分析發現Carvin運用RT使另類聲音更加突出，相較於記者或是其他菁英來源來說。相對的，透過mention的互動，他參與了正在崛起的數位新聞學新類型，而非只是傳統的新聞蒐集類型。

方法

Carvin提供自己Twitter的資料(@acarvin)，研究者再以Python重新整理，避免了研究者常無法取得研究對象的全部資料的窘境，以及可能產生的問題。以11個欄位：Annotation, User ID, Media, Created Via, Has Takedown, NSFW User, NSFW Admin, ID, Date, Contributor ID, Text, and Filter來建立資料庫，以其中對研究最重要的五個欄位來進一步整理與分析：1.推文日期；2.推文內容；3.推文中被mention的來源使用者名字；4.推文是不是RT；5.如果是RT，來源使用者名字。(表格2)

若文中有”RT@”則界定為RT，進一步區分RT與非RT，是為了區辨broadcasting(RT)與engagement(非RT)，這對研究問題來說十分重要。共60114則推文，研究者再篩選出突尼西亞革命期間（Jan 12~19）以及埃及革命期間（Jan24~Feb13），因此共四種象限。為了有夠大、但可以處理的樣本，研究者取樣只取了最突出的消息來源，約0.09%的被RT的來源、與約0.25%的沒被RT的來源，顯示出了人工編碼的限制（後面會討論），最後在以SPSS整理出四個象限中的330個sources。

內容分析

研究者試圖將來源一一分類分類，但由於倚賴來源的個人自我陳述（推文），因此必須有更多的脈絡讓編碼者進一步解讀，像是個人檔案或是網站，由於Twitter的檔案頁經常變更，因此以Wget來系統地下載每個使用者的檔案，確保編碼者看到一致的檔案。並以PHP語言建立一個網路頁面，將檔案頁資料放在MySQL，而系統會直接將檔案頁的資料分給特定的編碼員，方便查找與編碼、減少人的失誤、可快速算信度、研究者方便盯進度。也可以透過phpMyAdmin匯出、並在SPSS理分析。

討論

本文討論了巨量資料引起對量化內容分析的挑戰與機會，媒體研究從大眾媒體到網絡媒體也引起了各方面的問題與挑戰，電腦運算固然可以解決一些問題但仍有侷限，因此學界多提出混合的方法取徑：電腦運算方法與工具可以客觀、系統而精確地過濾樣本，同時人工編碼則較能對於脈絡保持敏感度。因此混合取徑多可增加效率而不失脈絡意識。

電腦運算可以幫助分類，提供更多線索來幫助人工編碼，進而提升信度。但不應忽視人工編碼的脈絡意識，脈絡意識對於資料龐雜的數位研究更是重要，否則再縮小樣本數時，可能會因此失去內容所潛藏的資訊。

另一個挑戰是Twitter的big data由小文本構成（140個字的特色），引起兩個層面的問題：1.文本過短，需要更多意義的考證；2.編碼員在延伸脈絡的可能性時，十分重要。這些挑戰來自於它本身特性。每篇發文可能與某個特殊時刻、為了某個特殊理由，比較相關；可能與其他潮流無關。

Twitter的特殊媒體邏輯，指出了另一個文本的挑戰，像是本研究中試圖區分行動者類型，Twitter上的人傾向自我定義認同、而不是別人所強加的，但就會出現許多各式各樣、不同於傳統的分類，這樣顯示出新的認同是根據開放的平台、而經群眾選擇。

傳統方法已不足以應付巨量資料，本研究對此試圖降低資料量，讓研究者有能力以人力編碼，本研究是透過利用電腦運算方法來幫助人力處理更多資料，且效率更高、更能精確界定行動者脈絡。而這正是我們所要更新傳統內容分析法用於巨量資料時代的主旨。

與本研究問題意識相關的概念與延伸對話：

提出混和的取徑與方法，以及可行的資料蒐集方法、編碼介面，都有助於建立新媒體內容分析方法。本研究將研究對象設定為樣本分布的長尾的另一端，因此將研究樣本逤小可以理解，但若研究問題是針對長尾的大眾，其代表性問題仍無法解決，或者說如何以電腦運算的方法來合理取樣？

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

1. Conway, M. (2006). The subjective precision of computers: A methodological comparison with human coding in content analysis. Journalism & Mass Communication Quarterly,83(1), 186–200. doi: 10.1177/107769900608300112

2. Hermida, A., Lewis, S. C. & Zamith, R. (forthcoming). Sourcing the Arab Spring: A case study of Andy Carvin’s sources on Twitter during the Tunisian and Egyptian Revolutions. Journal of Computer-Mediated Communication.

3. Karlsson, M., & Strömbäck, J. (2010). Freezing the flow of online news: Exploring approaches to the study of the liquidity of online news. Journalism Studies, 11(1), 2–19.

4. Koepfler, J. A., & Fleischmann, K. R. (2012). Studying the values of hard-to-reach populations: Content analysis of tweets by the 21st century homeless. Proceedings of the 2012 iConference,iConference ’12 (pp. 48–55).

5. Sjøvaag, H., Moe, H., & Stavelin, E. (2012). Public service news on the Web: A large-scale content analysis of the Norwegian Broadcasting Corporation’s online news. Journalism Studies, 13(1), 90–106.

6. Sjøvaag, H., & Stavelin, E. (2012). Web media and the quantitative content analysis: Methodological challenges in measuring online news content. Convergence: The International Journal of Research into New Media Technologies, 18(2), 215–229.

摘要content analysis in an era of big data.doc