Think Local, Retweet Global: Retweeting by the Geographically-Vulnerable during Hurricane Sandy

書名(以學術體例詳填資料，網路來源提供超連結及檢索日)：

Think Local, Retweet Global：來自桑迪颱風受災區域的轉推行為分析

Kogan, M., Palen, L., & Anderson, K. M. (2015). Think Local, Retweet Global: Retweeting by the Geographically-Vulnerable during Hurricane Sandy. Paper presented at the Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, Vancouver, BC, Canada.

導讀者：李欣穎

原作摘要：

本文調查特定空間中的線上社會行為(online socio-behavioral phenomena)，聚焦在訊息如何在人群中擴散。我們研究目標是在發生重大災害影響的地理區域，特別是具有高度人口的地區。在這種條件下，我們在2012年的桑迪颱風期間，審視在這段時間發布的Twitter。具體而言，這是一個分析人如何在危險與自然災害事件前、中、後期發文的研究。

一、研究目的

二、Data 蒐集方法

採用作者設計的Twitter數據蒐集工具four-node Cassandra cluster[1]蒐集資料。在颱風發生的第一天(形成日期2012年10月22日、消散日期2012年10月31日)，使用Streaming API蒐集資料，使用以下關鍵字：frankenstorm, hurricane, hurricanesandy, perfectstorm, sandy, sandycam, stormporn, superstorm，將搜到的資料當成keyword data set。

我們得到那些提及關鍵字的Twitter用戶名單後，他們的發文中必須有至少一次的地理位置標記，而這些地理位置應該位於颱風發生範圍中。這是第二次的資料過濾關卡。

用四個角落的邊框訂定地理疆界[-76.055416, 36.988536], [-76.416506, 39.084008], [-73.872974, 41.654353] & [-70.874853, 41.732875])。這些邊界內是受災最嚴重的地方。

然後，我們將用戶的前、後推文(轉推文)也一併蒐集，並稱之為「語境」(contextual streams)。我們收集語境的原因是因為，我們追求這些包含關鍵字的推文代表的更全面的語義和上下文。

三、創造資料集Creating the Data Sets

本文所使用的資料集為Tables 1 和Tables 2。

根據上述關鍵字所得到的原始數據放在Global Keyword dataset資料集中。

在受災區中有一個以上的地理位置標記的用戶，我們將它命名為geographically (or “geo”) vulnerable users。他們的推文有提到關鍵字，就放在Geo Vulnerable Keyword dataset資料集中。

有了這些已知地理位置在受災區域的用戶之後，我們蒐集了他們的語境，放在Geographically (“Geo”) Vulnerable Contextual dataset資料集中。

我們進一步將Geographically (“Geo”) Vulnerable Contextual dataset中的資料，依據發布的時間(颱風前、中、後)分成五種，共有Geo-Before (Oct 15-19), Geo-During (Oct 27-31), Geo-Short-After (Nov 8-12), and Geo-Long-After the event (Oct 22-26) (see Table 2)。

會這樣分，基於我們的認知(based on our knowledge)：災難事件的不同階段，會有不同的線上社會行為。

因為我們感興趣的問題是，比較在這些在受災區域中的用戶，在不同時間的推文行為，因此上述四個時間中的推文者應該要一樣。

我們對轉推行為也很感興趣。我們將retweet counts分成三種類型，根據Global Keyword資料集，以及Geo-Vulnerable Keyword資料集。

第一種轉推類型是：受災區域用戶轉推提及颱風關鍵字的推文。

第二種轉推類型是：受災區域用戶轉推受災區域用戶的推文。

第三種轉推類型是：提及颱風關鍵字的推特用戶，轉推提及颱風關鍵字的推文。兩者均不在受災區域內。

四、分析和發現

1.受災區域內、颱風發生前後的轉推網絡Retweet Networks

a. 轉推網絡的時間演化

我們蒐集了原始發文者，以及轉推者的用戶ID。轉推行為可以被當成一種鬆散的社交關係(loosely-connected social relationship)。這些關係是有方向的(directed graph)，原始發文者是來源節點(source nodes)，轉推者為目標節點(target nodes)，從來源到目標就是轉推行為的關係的方向(edges)。

根據颱風發生前後的資料(Geo-Before, Geo-During, Geo-Short-After, Geo-Long After)，我們發現了四種不同的社會網絡。

b. 轉推網絡的規模與密度

代表災難發生期間的Geo-During網絡擁有更多的節點與邊。這代表在受災區域中的用戶，在災難發生期間，會更加頻繁地使用社交媒體，即使推文與災難事件無關(未提及颱風關鍵字。因為這裡所使用的資料集為Geographically (“Geo”) Vulnerable Contextual dataset，不是Global Keyword dataset)。

Geo-During網絡擁有更緊密的網絡密度，表示這些在災難區域中的用戶之間，弱連結的數量較低、有更緊密的轉推行為。

b. 網絡Degree Distributions度分布

度（degree）是指網絡中一個點的與其他點的連接數量，度分佈（Degree Distribution）就是整個網絡中，各個點的連接數量的概率分佈。

我們對於out-degree特別感興趣，因為他代表推文的原始作者被轉推的次數。Geo-Before網絡有最高的度分布(181)，因為有一名轉推用戶(@BKdotNet)在災難發生前五天，轉推了181名原始推文用戶的推文。其他網絡也有類似的大量轉推情形。

Geo-During網絡的linear和loglog之間更加靠近(fit)，代表這段期間有更多的轉推出現。

我們發現，核心用戶(在事件中的前、中、後階段都保持活躍的用戶)，傾向於轉推許多作者的推文。

被許多人轉推的用戶，在網絡中具有重要的結構地位，被稱為網絡樞紐(hubs)。Geo-Before和Geo-During網絡，比起其他網絡，有較多的網絡樞紐(in-degree較高)。

這表示在災難期間，樞紐Twiter用戶從多個來源轉推推文，而這些推文又被更多人轉推出去，從而形成更多的小型網絡。

b. 網絡混和模式Network Mixing Patterns

網絡混和模式指的是什麼類型的節點傾向於相互連接。節點之間的相稱性(Degree assortativity)是用來判斷網絡節點與節點之間的關係的強度。

我們發現，Geo-During網絡的相稱性最低(disassortative)，表示在災難期間，來自受災難影響的區域的用戶，當他們在轉推不同來源的推文時，更有可能轉推那些「常常被轉推的用戶」所發布的推文。

我們認為，轉推行為在災難中的角色是有點直覺的(intuitive)，因為轉推可以被看作是信任（她/他的人氣證實了她/他的權威）。

五、結論

這項研究的目的是，透過區分源自受災害影響程度不同的區域的推文，來解釋災難發生期間Twitter用戶的行為。我們知道，比起一般人，受害人使用社交媒體出於不同的原因。為了解決這些問題，我們謹慎管理大量的數據集，比較跨越人群和時間片段的轉推行為，它可以使分析結果更加可靠。

總之，我們的主要結論是，來自受災難影響區域的Twitter用戶，在災難發生時期(比起災難發生之前或之後)發布更多的信息。他們可以是信息的來源、或是傳播者(轉推者)。在災難發生時期，他們形成更緊密、互連的轉推網絡。

社交網絡中的樞紐，在災難發生時期，都存在較高的數字(發文量、轉推量)。在災害期間，當地的政府主管部門和媒體是最重要的節點。

這些發現解決社群媒體在災害應急中的作用，為決策提供依據。分析社交媒體數據的科學家，和應用科學家，可以使用本文的一些調查結果來進一步抽樣，以更迅速地瞄準這些危機發生期間的大數據(big data)內容和傳播者。

與本研究問題意識相關的概念與延伸對話：

1. 本文將「是否來自災難發生區域」、「在不同的災難發生期間推文」當成變數，告訴我們區分地理位置、時間，能讓研究更深入。

2. 本文將轉推行為分成三種類型(受災區域用戶、提及颱風關鍵字用戶之間的排列組合)，告訴我們在研究社交媒體行為時，應該針對研究問題，區分出不同的用戶群體。

3. 本文提供災難傳播案例研究的目的：本文調查特定空間中的線上社會行為(online socio-behavioral phenomena)，聚焦在訊息如何在人群中擴散。我們研究目標是在發生重大災害影響的地理區域，特別是具有高度人口的地區。

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

[1] 在 NoSQL 陣營中，Cassandra 和 HBase 這兩個同樣受到 BigTable 啓發，但踏上不一樣道路的database，常被放在一起比較。Cassandra 部署起來很簡單。由於每一個節點都可以扮演幾乎完全相同的角色，不僅避開 SPOF 問題，更簡化了部署的複雜度，不必像 HBase 還得仰賴ZooKeeper。官方網站: http://cassandra.apache.org/。工具來自Anderson, K. M., & Schram, A. Design and implementation of a data analytics infrastructure in support of crisis informatics research (NIER track). In Proc. of the 33rd International Conference on Software Engineering. ACM (2011), 844-847.

摘要Think Local, Retweet Global：來自桑迪颱風受災區域的轉推行為分析.docx

Google Sites

Report abuse