Practical extraction of disaster-relevant information from social media

水火計畫讀書會書目摘要單

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

Imran, M., Elbassuoni, S., Castillo, C., Diaz, F., & Meier, P. (2013, May). Practical extraction of disaster-relevant information from social media. In Proceedings of the 22nd International Conference on World Wide Web (pp. 1021-1024). ACM.

導讀者:卓菁莪                              

原作摘要:

在災難發生時,網路用戶產生了大量的數據資料,其中一些資訊對救援工作來說相當具有價值。在此研究中,作者分析Twitter上,兩次不同的自然災害中產生的社群媒體內容,且設計條件隨機字段訓練模型,嘗試由這些社群媒體內容中提取有價值的資訊,並評估對兩個數據集的蒐集技術。此外,研究還藉由非災難數據集的檢測方法,以證明所設計的提取模型有利於從社會生成的內容中提取資訊。

 

重點整理:

一、研究背景

社群平台已成為在網絡上分享資訊的重要途徑,尤其是時間先決的事件,例如自然災害和人為災害。在近幾年,Twitter被大量用來傳播災害關消息(如傷亡和損失、捐贈努力和警報),且具多媒體形式,如視頻和照片。藉由重要的時間先決推文,受災社區和相關人士可能會受益於自動系統從Twitter中提取相關資訊。

本研究提出了兩步驟以提取與災難有關資訊的方法:(一)分類;(二)提取

從推文。分類的程序是依據前篇文獻所進行,而提取步驟則是本文的重點。

 

二、研究方法

(一)研究資料

1. Joplin 2011

(1)龍捲風發生於2011年5月22日美國密蘇里州喬普林市

(2)收集到206,764條推文

(3)由Twitter的API使用hashtag  #joplin

 

2. Sandy 2012

(1)颶風發生於2012年10月29日美國東北部

(2)收集到140,000條推文

(3)由Twitter的API使用hashtag  #sandy #nyc

 

(二)分類

災難期間產生的訊息及資訊相當多樣,因此自動系統需要先過濾掉無用的消息;其中包括那些完全屬於個人性質、與無關災害危機的內容。本研究將消息主要分為兩類:

1.個人:訊息只與該作者、其家人/朋友圈有關,對不知該作者的其他人無任何資訊性。

2.信息:訊息據資訊性的。

3.其他:訊息與災難無關。

 

此外,將資訊性消息區分為兩類:(1)直接的,即由目擊者書寫當時正所發生的事件;(2)間接的,該消息為重複其他消息,非目擊者的資訊。所檢測到資訊性推文將被分類下面數類(分類的細節請見延伸閱讀):

 

1.警告與建議:傳達或報告可能發生危險的警告或相關建議之資訊

2.傷亡與損失:有關造成的傷亡或基礎設施損壞之資訊。

3.捐贈(金錢、商品或服務):說明提供或受害者需要的商品或服務之資訊。

4.人員(失蹤、尋獲或被看到):有關受事件影響的失踪或被找到的人,或是名人的反應與訪問之資訊。

5.消息來源:有關消息來源、照片、影像,或者提到網站、電視、廣播電台等提供廣泛覆蓋面之資訊。

6.其他:其他類型的資訊性消息。

 

一組多標籤分類法被訓練成能將一則Twitter訊息自動分類成上述一個或多個類別;單純貝氏分類法被運用在Weka中使用。此分類法使用豐富的功能,包括單詞、雙字母組分詞(POS)標籤等。其所設定的功能還包含一組二進制功能(例如,tweets是否包含URL,表情符號,標籤等)和標量功能(例如,推特長度)。而此分類法所訓練的數據是通過群眾外包Crowdflower手動分類所獲得。

本文為Sandy數據集獲得了約2000個標籤,Joplin數據集獲得了大約4,400個標籤。

 

(三)提取

當推文被分類到上述類別之中,便可以提取相關訊息以用於進一步分析。例如,對於傷亡事件和損壞的tweets,可以識別傷亡的人員或被損壞的基礎設施名稱。

本文將檢測相關分類資訊的任務視為序列標記任務。Twitter被認為是一系列的詞語標記。在序列標記任務中,每個標記被視為目標資訊的子序列一部分或者與這樣的資訊無關。如下面例子所示,標記“closing”“of”“NYC”和“bridges”為正(目標信息的一部分),而其餘則被標記為負。注意句號(“。”)也是一個標記:

...orders closing of NYC bridges . Only Staten...

                                                                                         -           +       +   +          +      -     -          -

本研究採取群眾外包的方式,將所撈取的訊息以上述的規則標註正負;另一方面則建立模型,使用ArkNLP訓練數據,並且比對模型系統對於資訊提取的有效性及適切性。

 

三、研究結果

本研究提供兩個指標來進行系統檢測與評估。

(一)檢測率:有從系統裡找出訊息的比率,即使與被標註的資訊不同。

(二)命中率:所找出的訊息中,與被標註的資訊相同的比率。

以下圖例子所看,檢測率為66%,命中率為50%。

 

下圖為模型所跑出的結果,以上述兩指標分析可以推論以下結果:

(一)前兩個部分可發現Joplin的檢測率以及命中率普遍高於Sandy,但兩者命中率都不低,表示當系統提取到部分推文時,通常是正確的部分。

(二)第三個部分為訓練Joplin的資料,對Sandy進行檢測;這樣被稱為適應情境或轉移情境。最受影響的為警告與建議,影響最小的為捐贈相關的資訊,表示前者的資訊多為有關特定事件的內容,後者在兩災害中被用來描述的單詞或片語變化不大。

(三)最後結果顯示,只有在新的災害中使用此模型,便可逐步的改進。

(四)特定分類的模型可能會提高特定分類的提取表現,而對其他類則不會。最明顯的為警告與建議。

 

四、延伸操作

此外,本文認為一個有效的模型,應該能延伸應用之非災難相關事件上,故將嘗試操作於運動比賽的資訊提取上。

 

(一)研究資料

1、巴基斯坦與印度的板球比賽發生於2013年1月6日

2、收集到72,000條推文

3、由Twitter的API使用hashtag  #cricket #indvspak #indvpk

4、分類成六項

 

(二)結果

1、分類檢測的檢測率高於對全體資料檢測的檢測率

2、分類檢測的命中率相對於全體資料檢測的命中率亦有顯著的提升

 

五、結論

(一)本研究現提出的模型可以檢測出40%-80%的相關訊息,且所檢測出的訊息中有80%-90%是正確的提取。

(二)將訊息分層別類有助於提取更高價值的資訊。

摘要_Practical extraction of disaster-relevant information from social media.doc