Think Local, Retweet Global: Retweeting by the Geographically-Vulnerable during Hurricane Sandy

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

Think Local, Retweet Global:來自桑迪颱風受災區域的轉推行為分析

Kogan, M., Palen, L., & Anderson, K. M. (2015). Think Local, Retweet Global: Retweeting by the Geographically-Vulnerable during Hurricane Sandy. Paper presented at the Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, Vancouver, BC, Canada. 

導讀者:李欣穎

原作摘要:

本文調查特定空間中的線上社會行為(online socio-behavioral phenomena),聚焦在訊息如何在人群中擴散。我們研究目標是在發生重大災害影響的地理區域,特別是具有高度人口的地區。 在這種條件下,我們在2012年的桑迪颱風期間,審視在這段時間發布的Twitter。 具體而言,這是一個分析人如何在危險與自然災害事件前、中、後期發文的研究。

一、研究目的

本文調查特定空間中的線上社會行為(online socio-behavioral phenomena),聚焦在訊息如何在人群中擴散。我們研究目標是在發生重大災害影響的地理區域,特別是具有高度人口的地區。 在這種條件下,我們在2012年的桑迪颱風期間,審視在這段時間發布的Twitter。 具體而言,這是一個分析人如何在危險與自然災害事件前、中、後期發文的研究。

二、Data 蒐集方法

採用作者設計的Twitter數據蒐集工具four-node Cassandra cluster[1]蒐集資料。在颱風發生的第一天(形成日期2012年10月22日、消散日期2012年10月31日),使用Streaming API蒐集資料,使用以下關鍵字:frankenstorm, hurricane, hurricanesandy, perfectstorm, sandy, sandycam, stormporn, superstorm,將搜到的資料當成keyword data set。

我們得到那些提及關鍵字的Twitter用戶名單後,他們的發文中必須有至少一次的地理位置標記,而這些地理位置應該位於颱風發生範圍中。這是第二次的資料過濾關卡。

用四個角落的邊框訂定地理疆界[-76.055416, 36.988536], [-76.416506, 39.084008], [-73.872974, 41.654353] & [-70.874853, 41.732875])。這些邊界內是受災最嚴重的地方。

然後,我們將用戶的前、後推文(轉推文)也一併蒐集,並稱之為「語境」(contextual streams)。我們收集語境的原因是因為,我們追求這些包含關鍵字的推文代表的更全面的語義和上下文。

三、創造資料集Creating the Data Sets

本文所使用的資料集為Tables 1 和Tables 2。

根據上述關鍵字所得到的原始數據放在Global Keyword dataset資料集中。

在受災區中有一個以上的地理位置標記的用戶,我們將它命名為geographically (or “geo”) vulnerable users。他們的推文有提到關鍵字,就放在Geo Vulnerable Keyword dataset資料集中。

有了這些已知地理位置在受災區域的用戶之後,我們蒐集了他們的語境,放在Geographically (“Geo”) Vulnerable Contextual dataset資料集中。

我們進一步將Geographically (“Geo”) Vulnerable Contextual dataset中的資料,依據發布的時間(颱風前、中、後)分成五種,共有Geo-Before (Oct 15-19), Geo-During (Oct 27-31), Geo-Short-After (Nov 8-12), and Geo-Long-After the event (Oct 22-26) (see Table 2)。

會這樣分,基於我們的認知(based on our knowledge):災難事件的不同階段,會有不同的線上社會行為。

因為我們感興趣的問題是,比較在這些在受災區域中的用戶,在不同時間的推文行為,因此上述四個時間中的推文者應該要一樣。

我們對轉推行為也很感興趣。我們將retweet counts分成三種類型,根據Global Keyword資料集,以及Geo-Vulnerable Keyword資料集。

第一種轉推類型是:受災區域用戶轉推提及颱風關鍵字的推文。

第二種轉推類型是:受災區域用戶轉推受災區域用戶的推文。

第三種轉推類型是:提及颱風關鍵字的推特用戶,轉推提及颱風關鍵字的推文。兩者均不在受災區域內。

四、分析和發現

1.受災區域內、颱風發生前後的轉推網絡Retweet Networks

a. 轉推網絡的時間演化

我們蒐集了原始發文者,以及轉推者的用戶ID。轉推行為可以被當成一種鬆散的社交關係(loosely-connected social relationship)。這些關係是有方向的(directed graph),原始發文者是來源節點(source nodes),轉推者為目標節點(target nodes),從來源到目標就是轉推行為的關係的方向(edges)。

根據颱風發生前後的資料(Geo-Before, Geo-During, Geo-Short-After, Geo-Long After),我們發現了四種不同的社會網絡。

b. 轉推網絡的規模與密度

代表災難發生期間的Geo-During網絡擁有更多的節點與邊。這代表在受災區域中的用戶,在災難發生期間,會更加頻繁地使用社交媒體,即使推文與災難事件無關(未提及颱風關鍵字。因為這裡所使用的資料集為Geographically (“Geo”) Vulnerable Contextual dataset,不是Global Keyword dataset)。

Geo-During網絡擁有更緊密的網絡密度,表示這些在災難區域中的用戶之間,弱連結的數量較低、有更緊密的轉推行為。

b. 網絡Degree Distributions度分布

度(degree)是指網絡中一個點的與其他點的連接數量,度分佈(Degree Distribution)就是整個網絡中,各個點的連接數量的概率分佈。

我們對於out-degree特別感興趣,因為他代表推文的原始作者被轉推的次數。Geo-Before網絡有最高的度分布(181),因為有一名轉推用戶(@BKdotNet)在災難發生前五天,轉推了181名原始推文用戶的推文。其他網絡也有類似的大量轉推情形。

Geo-During網絡的linear和loglog之間更加靠近(fit),代表這段期間有更多的轉推出現。

我們發現,核心用戶(在事件中的前、中、後階段都保持活躍的用戶),傾向於轉推許多作者的推文。

被許多人轉推的用戶,在網絡中具有重要的結構地位,被稱為網絡樞紐(hubs)。Geo-Before和Geo-During網絡,比起其他網絡,有較多的網絡樞紐(in-degree較高)。

這表示在災難期間,樞紐Twiter用戶從多個來源轉推推文,而這些推文又被更多人轉推出去,從而形成更多的小型網絡。

b. 網絡混和模式Network Mixing Patterns

網絡混和模式指的是什麼類型的節點傾向於相互連接。節點之間的相稱性(Degree assortativity)是用來判斷網絡節點與節點之間的關係的強度。

我們發現,Geo-During網絡的相稱性最低(disassortative),表示在災難期間,來自受災難影響的區域的用戶,當他們在轉推不同來源的推文時,更有可能轉推那些「常常被轉推的用戶」所發布的推文。

我們認為,轉推行為在災難中的角色是有點直覺的(intuitive),因為轉推可以被看作是信任(她/他的人氣證實了她/他的權威)。

五、結論

這項研究的目的是,透過區分源自受災害影響程度不同的區域的推文,來解釋災難發生期間Twitter用戶的行為。我們知道,比起一般人,受害人使用社交媒體出於不同的原因。為了解決這些問題,我們謹慎管理大量的數據集,比較跨越人群和時間片段的轉推行為,它可以使分析結果更加可靠。

總之,我們的主要結論是,來自受災難影響區域的Twitter用戶,在災難發生時期(比起災難發生之前或之後)發布更多的信息。他們可以是信息的來源、或是傳播者(轉推者)。在災難發生時期,他們形成更緊密、互連的轉推網絡。

社交網絡中的樞紐,在災難發生時期,都存在較高的數字(發文量、轉推量)。在災害期間,當地的政府主管部門和媒體是最重要的節點。

這些發現解決社群媒體在災害應急中的作用,為決策提供依據。分析社交媒體數據的科學家,和應用科學家,可以使用本文的一些調查結果來進一步抽樣,以更迅速地瞄準這些危機發生期間的大數據(big data)內容和傳播者。

與本研究問題意識相關的概念與延伸對話:

1.       本文將「是否來自災難發生區域」、「在不同的災難發生期間推文」當成變數,告訴我們區分地理位置、時間,能讓研究更深入。

2.       本文將轉推行為分成三種類型(受災區域用戶、提及颱風關鍵字用戶之間的排列組合),告訴我們在研究社交媒體行為時,應該針對研究問題,區分出不同的用戶群體。

3.       本文提供災難傳播案例研究的目的:本文調查特定空間中的線上社會行為(online socio-behavioral phenomena),聚焦在訊息如何在人群中擴散。我們研究目標是在發生重大災害影響的地理區域,特別是具有高度人口的地區。

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

Kogan, M., Palen, L., & Anderson, K. M. (2015). Think Local, Retweet Global: Retweeting by the Geographically-Vulnerable during Hurricane Sandy. Paper presented at the Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, Vancouver, BC, Canada. 


[1] 在 NoSQL 陣營中,Cassandra 和 HBase 這兩個同樣受到 BigTable 啓發,但踏上不一樣道路的database,常被放在一起比較。Cassandra 部署起來很簡單。由於每一個節點都可以扮演幾乎完全相同的角色,不僅避開 SPOF 問題,更簡化了部署的複雜度,不必像 HBase 還得仰賴ZooKeeper。官方網站: http://cassandra.apache.org/。工具來自Anderson, K. M., & Schram, A. Design and implementation of a data analytics infrastructure in support of crisis informatics research (NIER track). In Proc. of the 33rd International Conference on Software Engineering. ACM (2011), 844-847.

摘要Think Local, Retweet Global:來自桑迪颱風受災區域的轉推行為分析.docx