A macroscopic analysis of news content in twitter

水火計畫讀書會書目摘要單

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

Malik M., & Pfeffer J. (2016). A macroscopic analysis of news content in twitter. Digital Journalism.

* http://www.pfeffer.at/news.php


導讀者:          朱蘊兒                    

原作摘要:

隨機抽取2014年四個月中的18億推文,觀察新聞媒體在推特上的活動情況,分析媒體組織在內容分享、Hashtag使用上有什麼特性。經分析發現:

①  這18億筆推文中,只有0.8%是媒體相關推文,

② 新聞媒體使用的Hashtag和推特整體使用情況有很大的差異,尤其是以有戰爭衝突的國家之名作為Hashtag的推文(如阿拉伯之春的國家、烏克蘭)中有超過15%來自新聞媒體,

③ 大多數的媒體組織都將推特用作一個專業化的單向傳播之工具,

④ 媒體與子話題:使用LDA主題模型算法找出10萬筆#Egypt推文中的子話題,發現不同子話題間與媒體相關的貼文佔比大有不同,

⑤ 媒體與時間:經過時間分析發現,媒體是否為子話題的最早採用者(earliest adopter),會影響媒體對這個子話題的影響力。

重點整理:

一、 研究背景

目前僅有少數研究使用運算方法來研究新聞媒體組織如何使用社群媒體,比如:Lotan et al. 2011。我們就將使用Twitter提供的decahose資料庫--可取得所有推文的10%,來探討以下三個問題:

① 不同的新聞組織是如何使用Twitter的?目前已有的研究都是針對單一組織,而不是全景式的、跨越不同媒體組織的比較研究。

② 考慮到社群平台都有其獨特的文化、政經結構,我們也想探討一下新聞組織與記者個人是如何適應Twitter平台的。

③ 新時期的議題設定:參照傳統議題設定的思路,我們將探討在Twitter上怎樣的議題更容易被媒體所影響,換言之,怎樣的議題中更容易出現媒體相關推文。

二、 文獻回顧

1. Twitter

過去已經有許多研究討論Twitter的運作機制與傳統,如Honeycutt and Herring (2009)及Marwick and boyd(2011),也有一些研究從網站結構的角度來分析它,如Bruns and Moe(2013)和Gaffney and Puschmann (2013),同時也有像van Dijck(2013)這樣從Twitter歷史進行分析的。

資訊科學是第一個將Twitter視為大量、臨時、網絡化的、語言學的甚至帶有地理位置訊息的資料,並且積極創造出一系列的計算工具來處理這樣的資料。資料科學家的問題意識主要包括:連結生成的(tie formation)模式、社群網絡、話題生成、輿論與情緒、病毒式傳播等(Cheong and Lee, 2010)。

許多研究都發現Twitter並不等同於外在世界,它有以下缺陷或問題:

① 有民調發現,Twitter上的輿論通常和現實世界里的民調不符,儘管Twitter創始人一直反復宣稱自己的宏圖是要把Twitter建立為一個中立的平台。同時這個研究也發現,Twitter用戶的人口特征並不具有整體代表性。

② Twitter的文化與傳統也十分特殊,包括歧視女性、歧視邊緣人這樣的黑暗面,

③ 儘管Twitter數據量很大,但這並不代表可以將其概化推論至全球,因為全球不同地區使用Twitter的情況不同,且它會隨著時間的變化而變化,

④ van Dijck強調研究者不應將Twitter視作一個簡單的技術文化人造物(techno-cultural construct)來研究,更應該將它的政經結構考慮進去,了解它的所有權結構、運營模式、治理模式不僅有助於理解整個平台,更有助於我們解釋平台上的資料,例如有研究發現,垃圾郵件製造商可以通過超鏈接農場(link farms, Ghosh et al. 2012)和機器人賬號(Twitter bots, Donath 2007)來放大流量、掙更多的錢,這卻讓所有Twitter研究者感到苦惱,因為這些垃圾賬號會扭曲研究發現,

⑥  Twitter免費提供的Stream API給的資料數量有限且絕非隨機抽樣,它不僅會扭曲絕對數值,就連相對數值也是不可靠的(Morstatter, Pfeffer, and Liu 2014; Morstatter et al. 2013)→ex.一個關鍵詞出現的次數×,比較兩個關鍵詞誰更常出現×

⑦  相較之下,Sample API要更可靠,它吐出的數據是通過隨機抽樣而來的,但它的缺點就是,資料量太少,只有1%,在統計上不夠顯著,不能偵測小現象,而且不可以檢索特定的用戶、hashtag或語種。

本研究使用decahose,又稱gardenhose(不同於商業版firehose,後者擁有完整的Twitter公開資料),這是一個升級版的Sample API,不但隨機抽樣而且可以給出10%的資料。

除此以外,我們充分意識到了以下三點理論考慮,但並不做處理:

① 社群平台間會通過競爭或合作的關係、共同用戶、政治連結等相互連結,形成連結性媒體生態,而且一家媒體組織會有考量到不同平台的屬性,而協調他們在不同平台上的行動,

② 社群平台是設計來調動用戶變成他們的免費數位勞工,以生產大量資料為它們所用,但作為生產者的用戶卻無法直接取得這些資料,

③ 公民記者和職業記者間的界限正在模糊,因而傳統新聞媒體的議題設定權力也發生了轉變,它需要和社群平台合作以設定議題。

三、 Twitter和新聞

Hermida(2010)使用了「模糊新聞學」這個詞來概念化Twitter上的新聞傳播,他關注了新聞的生產端、消費端,以及居中的「prosumption」--社群用戶和新聞組織間的互動反饋模糊了生產與消費過程。但他2014年對Twitter上馬航失蹤的推文進行分析后卻發現,有80%的推文是轉推媒體消息,剩下的則是媒體組織發出的新聞,也就是說原創內容很少。

有學者對社會化新聞消費情況進行了隨機問卷調查(Mitchell, Gottfried, and Matsa 2015),結果發現,18-33年齡段的人中有14%的人會通過Twitter看政治新聞,而61%的會FB通過看政治新聞,而34-49歲的只有9%會用Twitter看新聞,50%會用FB看新聞,50-68的只有5%會用Twitter看新聞,39%會用FB看新聞。這份研究同樣測量了不同年齡組對政治新聞的興趣、知識量和信任,發現越年輕的受訪者,對政治新聞的興趣與知識越少,但三個群組的信任度無異。

Hermida et al. (2012)也在加拿大進行了一次線上問卷調查,收集了1600份問卷,發現只有2/5的人會將社交媒體視為新聞來源,但年輕的群組中卻有超過2/3的人表示,他們使用社交媒體的動機是了解新聞和觀點。

Holton et al. (2015)則發現,用戶越多參與社群互動,他的新聞消費與內容生產也會越多。

在新聞產制端,Armstrong and Gao (2010)和Holcomb, Gross, and Mitchell (2011)兩組學者研究了特定媒體組織的發文模式,發現大多數新聞機構推文都是新聞標題加超鏈接這樣的模式,目的在於引導流量到新聞站點中,只有很少一部分推文沒有超鏈接,而是直接公佈一些公共服務訊息,譬如說天氣或交通情況,幾乎沒有推文是在和受眾互動,請求故事或反饋。Thurman and Walters(2013)研究了衛報網站上Live Blog這個項目,發現他們會搜集和分析推文,但訊息流是單向的,他們使用Twitter的訊息,卻沒有反饋回Twitter平台。而Lawrence et al. (2014)對2012美國總統大選中400位政治記者的研究發現,儘管記者會大量使用推文作為民意表徵,但這個篩選過程卻十分不透明,傳統守門過程並未消失,新聞界的「屏障」始終存在。Artwick(2013)對51位記者的2733則推文進行分類統計后發現,記者有三重主要服務:廣播公共服務、轉推公民之聲、自我行銷(分享自己生產的新聞的超鏈接)。

還有研究發現,受僱于比不權威、較不精英的新聞機構的記者,會更願意在自己的平台上和其他記者、評論人互動,他們也更願意透露自己的每日生活,Lasore(2012)還發現女性記者的更願意分享。

四、 研究假設

H1: 新聞媒體更多是使用Twitter進行訊息推送,而非進行對話或透明。

H2: 大型媒體組織仍舊處於支配性位置。

RQ1: 媒體推文和其他推文有何不同?

H3: 媒體關注的議題和推特整體關注議題不同。

五、 研究方法

1. 取得新聞組織名單:以Alexa的網頁(http://www.alexa.com/topsites/category/Top/News)中展示的媒體及記者清單作為索引目錄,在Twitter中搜尋是否存在該機構與個人賬號,再經過人工判斷是否正確,最終得到6103個新聞媒體相關賬號,公佈于網頁上:http://www.pfeffer.at/data/news-on-twitter/,我們並不認為我們已經取得了全部的新聞媒體賬號,因而我們會刻意低估一些結果來擬合實際情況,但值得注意的是,我們發現前100名新聞賬號產制了65.7%的內容,也就是說,那些獨立記者或小組織的影響其實並不大,忽略他們不會帶來太多的問題;

2. 搜集資料:我們收集了2014年3月1日至6月30日這個區間內的兩個資料集:①整體資料集,是全部的英文推文(lang=eng),共有1,783,704,266筆,②埃及資料集,是10萬筆帶有#Egypt的推文,按照下述三點標準定義什麼是「新聞媒體相關推文」:

a) 新聞賬號發佈的推文,也就是前面6130個賬號發佈的推文,

b) @mention新聞媒體的推文,

c) 連接到新聞網站的推文,Alexa的網頁中提供了6535個新聞網站的網址,對照推文meta-data的「expanded_url」欄位,看是否指向這些網址(使用meta-data,而不解碼短網址)

3. 主題模型:使用LDA模型,對#Egypt推文進行主題分類,看不同子主題間的媒體參與度是否有差異。LDA由Blei, Ng and Jordan (2003)提出,研究者匯入一系列文檔,它就產出不同詞語組成的簇類(clusters of words),每一個簇類代表的就是一個話題,研究者可以通過查看不同簇類的詞語組成,來為主題選擇一個描述它的名字。需要注意的是,LDA採取的是「詞袋(bag-of-words)」取徑,只考慮簡單詞頻和詞語間的共現頻率,而不考慮語義脈絡或其他文本結構特徵,因而它不能也無法產出意義。不過詞袋模型卻適合于提取主題,因為研究發現人們會傾向於看見建構,他們會使用自己的主觀想象來將一對雜亂的詞語排列出具有一致性的主題(Zhu, Gibson, and Rogers 2009),Morstatter et al. (2015)對LDA進行了效度檢驗,將它與人工編碼結果進行比較,檢定得知它的分類是可靠的。我們有意識地迴避了主題模型的詮釋問題,不去詮釋它找到的cluster的內涵,而是直接比較cluster間的差異。

六、 結果

首先看推文數量分佈,在整體資料集中,只有0.8%的推文與新聞媒體相關,具體分佈如下:

隨時間分佈如下圖:

從圖上可知,新聞媒體相關貼文的分佈較為穩定,基本上都在0.75%-0.85%之間,但考慮到只有6000多個媒體賬號,占3億個賬號總量的0.0019%,其實這個比例並不算特別低。

接著看與媒體相關的推文的主題變化。

要找出主題,最直接的方法就是使用hashtags,這是用戶自定的主題,且十分易於機器識別。下圖是前656個hashtag。橫軸是推文總數,縱軸是與媒體有關的推文數。

這張圖有五點發現值得注意:

①  與媒體相關的推文比例高於5%的hashtag,很多都是發生戰爭的國家,

② 一些政治運動得到了媒體高度關注,

③ 馬航MH370失蹤事件是一個非常特殊的例子,所有新聞都來自媒體,沒有一線目擊者,這和Hermida(2014)的研究結果類似,也和Vasterman(2005)所說的「媒體皮下注射(media-hypes)」相似,媒體可以反復報導一個事件,而不需要任何新的東西,

④ 被大量使用的hashtag與移動遊戲有關,媒體對其關注很少,

⑤ 而最常被媒體相關推文使用的Hashtag是#breaking #takeoffjustlogo #movieawards,這三個hashtag被一般推文的使用程度很低,說明讀者和編輯認定的重要主題是不同的。


媒體的推特使用:推送模式

從媒體清單中,抽取出前51個賬戶,他們的推文佔據了媒體相關推文量的50%,從中再隨機抽樣出1000則推文進行人工判斷,發現有89.7%的推文中包含了指向自身組織的URL,另有2.8%的推文指向其他新聞來源,只有6.5%推文沒有指向任何新聞網站、hashtag,也就是說大多數與媒體相關的推文都是用來給自己網站導流量的,Twitter還是僅僅被用作新聞傳散工具,那麼轉發量就是判斷它們是否成功的重要指標。

另外,我們還發現,在這1000則推文中,沒有一則新聞不帶hashtag、@mention或URL,這證實了過去研究中所發現的,新聞組織將Twitter上的專業主義解釋為利用Twitter的機緣(affordance)來將影響最大化。融入Twitter文化,或在Twitter上與讀者互動都不屬於專業主義的範圍。


相對支配性

新聞相關推文呈現一個偏態長尾分佈,我們可以從以下兩幅圖中看出:很小一部分媒體組織或個人決定了大多數活動,他們產制出大部分的推文,大部分URL指向這些媒體組織,指向BBC.co.uk的超鏈接出現在將近17萬推文中,而指向theguardian.com的超鏈額出現了將近16萬次。

從第一張圖中可以看出,不意外的,運動和娛樂新聞媒體(ESPN, MTV, Billboard)和數位新媒體(Mashable, The Huffington Post)得到的推文數最多,而傳統媒體如Washington Post和Wall Street Journal的相關推文則遠遠少於它們。另外在通訊社中,美聯社要比路透社多出一倍。而在電視媒體中,CNN得到的推文數最多,而BBC並未出現在榜單之上,因為它有策略地細分了不同內容部門,分成了@bbcsport @bbcworld @bbcbreaking @bbcnews,它們單獨看名次都不高,但加總起來卻要比第一名ESPN獲得的推文數來得多。

而從URL來看,英文媒體世界被美國和英國媒體壟斷,沒有非西方媒體排到榜單高位。而且傳統媒體要比新媒體影響力來得高,榜單上只有Huffington Post和Yahoo News兩家新媒體排名較為靠前。


局部分析:埃及個案

埃及是一個長期存在的熱點議題,其議題面向十分多元,從穆斯林兄弟會的民選政府,到政府輪替,因而我們找出了3月1日至6月30日期間10萬筆帶有#Egypt的推文,其中有8474筆推文與媒體有關。下圖為時間分佈。

我們使用LDA來處理資料集,分類出20個子話題,接著,統計這些子話題在新聞相關的推文與一般性推文中,它的數量分佈情況如何。我們可以看出,不同子話題上的新聞相關推文數十分不同,從topic 7將近0到topic 17將近17。(在LDA中,topic序號只是個索引工具,並不具有實際意義。)

為了更好地了解新聞媒體和不同子話題間的關係,我們從時間的角度對這20個話題進行進一步的分析,抽取出8474則媒體相關推文中最早發出的2%的推文,統計其話題分佈。使用這個方法我們可以看出這些話題中最早被採用(early adopters)的是誰。當然,我們不能直接推論後期採用者就是受到早期採用者的影響才關注這個話題,時間的早晚只是影響的必要條件,而非充分條件。→Junior:他將早期採用者默認為就是媒體組織。

從圖上可以看出,topic 17和topic 9兩個話題在早期佔據了非常大的比例,我們就這兩個話題進行深入分析。

LDA的一個核心功能就是可以給出對某個話題重要的關鍵詞,這些關鍵詞可作為話題的描述性標籤被使用。

從這張表格中,可以看到topic 9和topic 17都指向了一個非常特殊的事件:三個半島電視台記者在2013年9月29日被控告犯有恐怖主義罪並且被關進監獄,在2014年6月23日在法庭上定罪。

儘管LDA是探索性的,但我們仍然可以很坦然地說,在埃及個案上,媒體組織尤其關注某幾個新聞事件--新聞與媒體自由,而這個關注焦點和大眾不同。

七、 結論

新聞機構賬號在Twitter平台上還是被大量轉發與關注的,但如果我們將其他機構賬號納入比較,還是會發現新聞機構賬號並不算特別有影響力、支配力的。另外,我們發現與新聞相關的推文(包括發文、URL和@mention)佔了0.8%,這一數字很難單獨詮釋,但可以作為未來比較分析的一個基準值。

我們使用了計算的方法來回答過去傳統的小型研究的研究問題與假設,其實是小心研究的一個延續,用不同方法,可以得到相同的結論:

首先,我們發現對於媒體機構來說,Twitter仍更多是一個傳播工具,互動較少,

其次,不同媒體組織產出的及被轉發的內容量非常不同,大組織量更大,

其三,在議題設定上,新聞媒體組織使用的Hashtag和一般網民非常不同,而在埃及這個個案中,與新聞業直接相關的子話題更容易受到新聞媒體關注,而且媒體組織也會更早關注事件。

那回到我們最初的問題,我們發現計算的方法確實可以讓我們能夠佔到一個更廣闊的角度去探討Twitter上新聞的消費與傳播、Twitter被如何設計得可以被商品化及資料探勘。

與本研究問題意識相關的概念與延伸對話: 

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

1. 

與危機傳播相關之關鍵字及其概念內涵:

□ __________: 

□ __________:

□ __________:

□ __________:


資料狀況:

■ 電子檔(摘要/全文):      全文     

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。




摘要 LDA and twitter news analysis-蘊兒160425.doc