The spread of true and false news online.

Vosoughi, S., Roy, D., & Aral, S. (2018). The spread of true and false news online. Science, 359(6380), 1146-1151. 


用資料科學方法比較真新聞與假訊息的傳播速度,假新聞傳播更遠、更快,各類假新聞中,政治新聞最有優勢,比災難、科學、股市等其他類別的假新聞來得快;人的情感反應亦不同,假新聞激起的是恐懼、反感、驚訝,真新聞則是期盼、悲傷、喜悅、信任。同時發現,機器帳號對於假新聞擴散的影響,並未比真人來得大。



原作摘要:

        我們調查從2006年至2017年間在Twitter上發佈過所有被驗證的真實和虛假新聞報導的差異化擴散。這些數據包括約126,000個故事,被約300萬人推文,總共超過450萬次。利用六個獨立的事實查證機構作為判定推特上新聞的真偽依據。對於以上的判定他們有95~98%之間的一致同意度。在所有類別中,謬誤(Falsehood)相對於真實而言的分佈範圍大、觸及更多人、傳遞速度愈快,這個現象在假的政治新聞上更為明顯,相較於恐怖主義新聞,自然災害新聞,科學新聞,城市傳說新聞或財務資訊的虛假新聞。作者在此篇文章中有三個發現:

發現1:假新聞比真實新聞還新穎,這也表示人們較喜歡分享新穎的東西。

發現2:假新聞通常會引出一些不好的回覆(例如:讓人覺得作嘔、驚悚的回覆) ,真實新聞會引出難過、開心、信任的回覆。

發現3:與傳統觀點相反,機器人在推廣真假新聞時,傳佈的時間是依樣快的,這暗示假新聞會散佈的如此快速是因為人的傳播而非機器人。


重點整理

        過往的研究限制在小謠言、或特定形式的錯誤資訊散佈,但本研究想探討:

1. truth和falsity是怎們被差異式散佈

2. 人們要怎麼判定truth和falsity

        現在已分析過的研究,是分析單一謠言的傳播,例如2010年Haitian earthquake,以及多個謠言從單一災難事件擴散等,例如2013年Boston Marathon bombing,它發展了謠傳擴散的理論模型、謠言檢測、可信度評估或預防謠言擴散等,以遏制謠言的傳播。但幾乎沒有研究全面評估各個主題真實和虛假傳播的差異,或者研究為什麼虛假新聞可能傳播與真實新聞有何不同。 雖然Del Vicario和Bessi分別研究了科學與陰謀論的傳播,但也只有研究如何擴散,沒有評估他們的真實性(veracity)。科學和陰謀論的故事既可以是真實的或虛假的,而因為它們在維度上的使用不同,此對他們的擴散程度有關,但與真實性的判定無關。

        為了理解假新聞的擴散方式,對於分辨真假科學故事和陰謀論,要控制類別間的主題和文體的差異。目前為止,唯一利用真實性分類謠言的研究是Friggeri等人,他們分析在Facebook上的4000多則謠言,並關注事實查核如何影響謠言傳播,但卻沒提到虛假資訊與真時資訊如何不同的被擴散。目前美國的政治環境和學術文獻中,圍繞在「假新聞」(fake news)、社群媒體對美國政治的外國干預,以及我們對虛構新聞(constitutes news)、假新聞(fake news)、虛假新聞(false news)、謠言(rumors)、謠言聯極(rumor cascades)等相關術語。

        儘管將假新聞被做為新聞報導真實性可能是適當的,但作者認為,目前的政治和媒體環境,這個詞彙已經被極端化。例如,政治家因政治戰略考量,將不支持其立場的新聞來源標記為不可靠或虛假新聞,而支持其立場的來源則被標記為可靠或非偽造的,該術語與所呈現的資訊的實際準確性失去依準,使其在學術分類中使用無意義。

       因此,本文中避免使用假新聞(fake news) 這術語,而是使用更加客觀的術語「真實」(true)或「虛假」(false) 新聞。儘管虛假新聞和錯誤資訊這些術語也意味著對事實的故意歪曲,但在分析中,不會對資料的採集者意圖提出任何主張。相反,我們將注意力集中在真實性和錯誤性的故事上。

       本篇沒有根據資訊來源來定義什麼構成新聞,而是將任何在Twitter上聲稱的故事作為新聞。謠言定義為新聞報導或透過Twitter網錄得擴散的社會現象。謠言本質上是社會性的,涉及分享,和人們之間的主張。

如何計算 cascade 和 size 的方法

        謠言聯級(rumor cascade)在 Twitter 上開始,當用戶對推文中的話題發表意見時,可能包括文字、照片或線上文章連結。其他人會透過回推(retweet)它傳播謠言。謠言可以是一個或多個的聯級。例如,一個人可以透過一則故事來推文(tweet),另一個人可以獨立開始第二個謠言,而此故事和第一個相同,這兩則推文互相獨立,他們代表兩個相同謠言的聯級。組成謠言的聯級數量等於故事,即用戶獨立推送(未回推)的次數。 因此,如果謠言“A”被 10 人分別推文,但未被轉發,則會有 10 個聯級,每個聯極 size 都是 1。相反的,如果第二個謠言“B”由兩個人獨立推文並且這兩個推文中的每一個都被回推 100 次,則謠言將包括兩個聯級,每個聯級 size 為 100。

        分析真實的(true)、虛假的(false)和混合的(部分真實,部分虛假)新聞報導的差異性擴散,這些數據集涵蓋了從 2006 年到 2017 年推出的所有事實核查的謠言聯級(rumor cascade)。此包含了 126000 的謠言聯級,然後散佈在三百萬人之間,超過 4 千五百萬次,然後利用六個獨立的事實查核機構做抽樣(snopes.com, politifact.com, factcheck.org, truthorfiction.com, hoax-slayer.com, urbanlegends.about.com)。謠言聯級被這些查核機構做查核後,他們對真假性的同意度為 95~98%。查核機構從謠言聯級中蒐集相關回覆(這些回覆包含先前提到的那些機構的字)提取並記錄。必要時,使用光學符號識別裝置從圖像中提取文字,從而對謠言聯級的傳佈進行分類。


量化推文的方式是擷取以下特性

1. 聯級深度(cascades depth):被不同的人回推(retweet)次數

2. 大小(size):在一段時間內聯級中涉及的用戶數量

3. 最大廣度(maximum breadth):在任何聯級深度中涉及的最大用戶數量

4. 結構性病毒(structrual virality):多少的內容被病毒性擴散

       當謠言被轉發,聯級深度、尺寸、最大廣度、結構性病毒,都會上升。1 至 1000 聯級之間有大量的虛假謠言,在類別中政治是謠言的最大宗,接下來依序是城市傳奇、商業、恐怖主義、科學新聞、娛樂新聞、和自然災害新聞。一開始假設,那些傳播虛假訊息的人,擁有更多的追隨者,更頻繁地推特,或者更⻑時間在Twitter 上。但是當我們比較涉及真假謠言聯級的用戶時。我們發現每種情況都是相反的。傳播虛假新聞的用戶顯著較少的追隨者(KS 檢驗= 0.104,P = 0.0),在 Twitter 上活躍程度顯著降低(KS檢驗= 0.054,P = 0.0 ),並且在 Twitter 上的時間顯著減少(K-S 檢驗= 0.125,P = 0.0)。儘管存在這些差異,假新聞仍然比真實新聞分散得更遠更快,而不是因為我們錯怪的那些人。

        當分析真假謠言的擴散動態時,發現在所有類別的訊息中,虛假訊息擴散顯著更遠、更快、更深和更廣泛。虛假新聞聯級比真實新聞聯級更顯著,大部分超過了 10 級的深度,並且在假聯級的前0.01%比真實新聞在 Twittersphere 中的深度多擴散了 8 級(上圖A與上圖B)。在真實新聞層級的每一個深度,謬誤(falsehood)都會觸及更多的人,這意味著更多的人推(tweet)虛假的新聞,而非真實新聞(上圖C)。同時表述,假新聞的傳遞並非只是經由一般的傳播管道進行,更明顯的是由同儕(peer to peer)間的影響不斷的病毒式分支傳佈(上圖D)。 

       虛假的政治新聞也更迅速地擴散得更深,觸及近 2 萬多人,比其他類型的虛假新聞觸及 10,000 人的速度快三倍。儘管其他類別的虛假新聞在 1 到 10 之間的深度達到了相同數量的獨特用戶,但虛假新聞通常會達到深度大於 10 的最獨特用戶。雖然所有其他類別的虛假新聞在較淺的深度上稍微更廣泛地傳播,但虛假的政治新聞更深入地傳播,表明更受歡迎的虛假政治新聞展現出更廣泛且更加速的傳播動態。關於政治新聞、城市傳說新聞和科學新聞會傳播給大多數人,而有關政治和城市傳奇的新聞傳播速度最快,並且在結構方面是最具病毒式傳播。


新穎的東⻄吸引大眾分享謠言

        從資訊論和貝葉斯決策理論出現了另一種解釋。新穎的東⻄會吸引人的注意,對於生產性的資訊決定有很大的幫助。此理論同時鼓勵大眾分享資訊,因為新穎的變化會更新我們的世界觀。當資訊比較新穎時,除了會讓人比較驚喜,同時給人有價值感。對於 twitter 使用者而言,新穎的東⻄很吸引人,所以才會多 retweet 資訊。為了估計新穎性(novelty),他們隨機挑選了 5000 個使用者,這些使用者他們同時傳播過真假謠言並在他們決定轉發謠言之前的 60 天內隨機抽取他們接觸到的約 25,000 條推文。

        他們使用了一個潛在的 Dirichlet Allocation 主題模型,藉著 200 則主題和訓練 1000 萬個英文語言的推文,來計算謠言推特文的資訊距離。透過比較謠言推文的主題分佈與用戶在轉推前 60 天內暴露的推文的主題分佈,來測量真假新聞中的新穎性。假的謠言有比較高的獨特性。(K-S假的謠言有比較高的獨特性。(K-S test = 0.457,P ~ 0.0) (28),Kullback-Leibler (K-L) divergence (K-S test = 0.433, P ~ 0.0) , and Bhattacharyya distance(K-S test = 0.415, P ~ 0.0) (結果和 Hellinger distance 相似) 

        使用者本身其實不會發現誰比較新穎。我們通過比較真實和虛假謠言回覆的情感內容,評估用戶對真假謠言中所含資訊的看法。研究者使用由加拿大國家研究委員會(NRC)策劃的代表性詞彙對情緒進行分類,根據 Plutchik 關於基本情緒的研究提供了大約 140,000 個英語詞彙及其與八種情感關聯的綜合列表包含:憤怒、恐懼、期待、信任、驚喜、悲傷、歡樂和厭惡,以及約 32,000 個Twitter 主題標籤與它們相同情緒的加權關聯的列表。

        研究者從回覆的推文中刪除了停用詞和 URL,併計算了與八種情緒中的每一種相關的推文中的詞的部分,從而創建情感向量每個回復的權重總結為一個情緒。我們發現錯誤的謠言激發了表達更大驚喜的回覆(KS 檢驗= 0.205,P = 0.0),證實了新穎性假設,並且更加噁心(KS 檢驗= 0.102,P = 0.0),而真相激發了回覆,表達得悲傷 KS 測試= 0.037,P〜0.0),更有期待(K-S 檢驗= 0.038,P = 0.0),更快樂(K-S 檢驗= 0.061,P = 0.0)和更多的信任(K-S 檢驗= 0.060,P〜0.0)

        表達回應的虛假新聞情緒可能可以說明其他因素,超越新穎性的因素,激發人們為何分享虛假新聞。雖然我們不能說新奇導致轉發,或者新聞是唯一的原因是為什麼虛假新聞被更頻繁地轉發,但我們確實發現虛假新聞更新穎,新訊息更有可能被轉推。

        許多診斷統計和操作檢查驗證了我們的結果並證實它們的穩健性。首先,由於每個真實和虛假的謠言都有多個聯級,所以與相對應的謠言聯級相關的誤差項將相關。

        因此,我們指定了穩健標準誤差(cluster-robust standard errors),計算聚集在謠言水平上的所有平方差統計量。我們通過比較有無群集錯誤的分析來測試我們的研究結果對本規範的穩健性,並發現雖然聚級降低了預期的精確度,但是我們的結果的方向,大小和意義沒有改變,卡方(P〜0.0)和偏差(d)擬合優度檢驗(d = 3.4649×10-6,P〜1.0)表明模型是能夠詳細說明。


檢視查核機構的準確性

由於樣本受到所依賴的六個事實查核組織所檢查的推文憑據,可能會產生選擇偏差。真實資訊上的查核可能會選擇某些類型的謠言才會引起他們的注意。為了驗證研究者的結果對真實和虛假的謠言級聯的普遍性,作者另外獨立驗證第二個未經任何事實核查組織核實的謠言聯級樣本,藉由麻省理工學院(MIT)和韋爾斯利學院的三名本科學生進行了檢查。訓練學生的方式是利用自 2016 年起在 300 萬個英語推文上運行的自動謠言檢測算法來檢測和查核謠言,本科註釋者使用網絡上的簡單搜索查詢來調查檢測到的謠言的真實性。將謠言標記為真實的,虛假的或混合的,並不參考以前由事實核查組織調查的所有謠言。學生們獨立工作並且在彼此不知情的註釋者同意他們調查的13,240 個謠言級聯中的 90%的真實性,並且實現了 0.88 的 Fleiss’ kappa。強健數據裡,集中的虛假謠言有更大的深度(KS 檢驗= 0.139,P = 0.0),大小(KS 檢驗= 0.131,P = 0.0),最大檢驗寬度(KS 檢驗= 0.139,P = 0.0)速度(圖 S17)和每個深度的更多數量的獨特用戶(圖 S17)。當我們將分析範圍擴大到包括多數規則標籤而不是一致性時,找到相同的結果。


機器人轉發虛假資訊的影響力

        真實和虛假的差異性擴散在有或沒有機器人運作的情況下,大眾擔心分析結果會因為機器人的存在⽽受到偏⾒。因此,作者先使⽤機器⼈檢測算法在運⾏分析之前,先識別並刪除所有機器⼈。之後才再將機器⼈的流量重新添加到分析中時,最後和主要結論都⼀致,虛假新聞在所有類別的資訊中仍然散佈得更廣泛、更快、更深⼊。當我們刪除機器⼈啟動的所有推特聯級時,包括原始機器⼈推⽂的⼈轉發,以及當我們使⽤第⼆種獨⽴的機器⼈檢測算法時,改變算法的靈敏度閾值以驗證我們分析的穩健性。儘管在分析中使⽤了兩種最先進的機器⼈檢測算法來衡量包含殭屍程序,但它加速了真假新聞的傳播,它同樣影響了它們的傳播。這表明虛假新聞傳播得⽐真相更遠、更快、更深、更廣泛,因為⼈類⽽不是機器⼈才更容易傳播它。


真假資訊差異性的傳播⾏為

        對真假資訊傳播差異的⾏為解釋需要進⾏更多研究。特別是,更強⼤的⼈為判斷因素,⽤來識別推動真假資訊的線上傳播,例如,透過訪談、調查、做實驗甚⾄神經影像與⽤⼾進⾏更直接的交流。作者⿎勵利⽤以上或其他⽅法來調查⼈為判斷的因素,以推動未來研究中真假新聞的差異傳播。

        虛假新聞傳播的⽅式和原因,目前基於⾮⼤規模的系統分析。我們對在Twitter 上傳播的所有經過驗證的真實和虛假謠⾔的分析證實,虛假資訊⽐網路上的真實資訊更普遍地被傳播。有些⼈認為網絡結構和個⼈特性可以來⽀持虛假新聞的傳播,但事實正好相反。⼈們轉發虛假資訊的可能性⼤於真相是因為⼈的驅動因素,即使對於資訊傳播⽽演,網絡和個⼈因素有利於事實傳播。

         此外,儘管國會委員會最近就美國錯誤訊息的證詞集中在機器⼈傳播虛假新聞的作⽤上,我們得出結論,與⾃動化機器⼈相⽐,⼈類對虛假和真實的差別傳播做出了更多貢獻。這意味著政策應該對錯誤資訊的的產出強調做相關干預措施,如貼標籤和激勵措施來阻⽌錯誤資訊的散佈,⽽不是⼀味專注於限制或封鎖殭屍帳號的產⽣。了解假資訊如何傳播是實現新聞的第⼀步。


20180508導讀_The spread of true and false news online.pdf