Practical extraction of disaster-relevant information from social media

水火計畫讀書會書目摘要單

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

Imran, M., Elbassuoni, S., Castillo, C., Diaz, F., & Meier, P. (2013, May). Practical extraction of disaster-relevant information from social media. In Proceedings of the 22nd International Conference on World Wide Web (pp. 1021-1024). ACM.

導讀者：卓菁莪

原作摘要：

在災難發生時，網路用戶產生了大量的數據資料，其中一些資訊對救援工作來說相當具有價值。在此研究中，作者分析Twitter上，兩次不同的自然災害中產生的社群媒體內容，且設計條件隨機字段訓練模型，嘗試由這些社群媒體內容中提取有價值的資訊，並評估對兩個數據集的蒐集技術。此外，研究還藉由非災難數據集的檢測方法，以證明所設計的提取模型有利於從社會生成的內容中提取資訊。

重點整理：

一、研究背景

社群平台已成為在網絡上分享資訊的重要途徑，尤其是時間先決的事件，例如自然災害和人為災害。在近幾年，Twitter被大量用來傳播災害關消息（如傷亡和損失、捐贈努力和警報），且具多媒體形式，如視頻和照片。藉由重要的時間先決推文，受災社區和相關人士可能會受益於自動系統從Twitter中提取相關資訊。

本研究提出了兩步驟以提取與災難有關資訊的方法：（一）分類；（二）提取

從推文。分類的程序是依據前篇文獻所進行，而提取步驟則是本文的重點。

二、研究方法

（一）研究資料

1. Joplin 2011

(1)龍捲風發生於2011年5月22日美國密蘇里州喬普林市

(2)收集到206,764條推文

(3)由Twitter的API使用hashtag #joplin

2. Sandy 2012

(1)颶風發生於2012年10月29日美國東北部

(2)收集到140,000條推文

(3)由Twitter的API使用hashtag #sandy #nyc

（二）分類

災難期間產生的訊息及資訊相當多樣，因此自動系統需要先過濾掉無用的消息；其中包括那些完全屬於個人性質、與無關災害危機的內容。本研究將消息主要分為兩類：

1.個人：訊息只與該作者、其家人/朋友圈有關，對不知該作者的其他人無任何資訊性。

2.信息：訊息據資訊性的。

3.其他：訊息與災難無關。

此外，將資訊性消息區分為兩類：(1)直接的，即由目擊者書寫當時正所發生的事件；(2)間接的，該消息為重複其他消息，非目擊者的資訊。所檢測到資訊性推文將被分類下面數類（分類的細節請見延伸閱讀）：

1.警告與建議：傳達或報告可能發生危險的警告或相關建議之資訊

2.傷亡與損失：有關造成的傷亡或基礎設施損壞之資訊。

3.捐贈（金錢、商品或服務）：說明提供或受害者需要的商品或服務之資訊。

4.人員（失蹤、尋獲或被看到）：有關受事件影響的失踪或被找到的人，或是名人的反應與訪問之資訊。

5.消息來源：有關消息來源、照片、影像，或者提到網站、電視、廣播電台等提供廣泛覆蓋面之資訊。

6.其他：其他類型的資訊性消息。

一組多標籤分類法被訓練成能將一則Twitter訊息自動分類成上述一個或多個類別；單純貝氏分類法被運用在Weka中使用。此分類法使用豐富的功能，包括單詞、雙字母組分詞（POS）標籤等。其所設定的功能還包含一組二進制功能（例如，tweets是否包含URL，表情符號，標籤等）和標量功能（例如，推特長度）。而此分類法所訓練的數據是通過群眾外包Crowdflower手動分類所獲得。

本文為Sandy數據集獲得了約2000個標籤，Joplin數據集獲得了大約4,400個標籤。

（三）提取

當推文被分類到上述類別之中，便可以提取相關訊息以用於進一步分析。例如，對於傷亡事件和損壞的tweets，可以識別傷亡的人員或被損壞的基礎設施名稱。

本文將檢測相關分類資訊的任務視為序列標記任務。Twitter被認為是一系列的詞語標記。在序列標記任務中，每個標記被視為目標資訊的子序列一部分或者與這樣的資訊無關。如下面例子所示，標記“closing”“of”“NYC”和“bridges”為正（目標信息的一部分），而其餘則被標記為負。注意句號（“。”）也是一個標記：

．．．orders closing of NYC bridges . Only Staten．．．

- + + + + - - -

本研究採取群眾外包的方式，將所撈取的訊息以上述的規則標註正負；另一方面則建立模型，使用ArkNLP訓練數據，並且比對模型系統對於資訊提取的有效性及適切性。

三、研究結果

本研究提供兩個指標來進行系統檢測與評估。

（一）檢測率：有從系統裡找出訊息的比率，即使與被標註的資訊不同。

（二）命中率：所找出的訊息中，與被標註的資訊相同的比率。

以下圖例子所看，檢測率為66%，命中率為50%。

下圖為模型所跑出的結果，以上述兩指標分析可以推論以下結果：

（一）前兩個部分可發現Joplin的檢測率以及命中率普遍高於Sandy，但兩者命中率都不低，表示當系統提取到部分推文時，通常是正確的部分。

（二）第三個部分為訓練Joplin的資料，對Sandy進行檢測；這樣被稱為適應情境或轉移情境。最受影響的為警告與建議，影響最小的為捐贈相關的資訊，表示前者的資訊多為有關特定事件的內容，後者在兩災害中被用來描述的單詞或片語變化不大。

（三）最後結果顯示，只有在新的災害中使用此模型，便可逐步的改進。

（四）特定分類的模型可能會提高特定分類的提取表現，而對其他類則不會。最明顯的為警告與建議。

四、延伸操作

此外，本文認為一個有效的模型，應該能延伸應用之非災難相關事件上，故將嘗試操作於運動比賽的資訊提取上。

（一）研究資料

1、巴基斯坦與印度的板球比賽發生於2013年1月6日

2、收集到72,000條推文

3、由Twitter的API使用hashtag #cricket ＃indvspak #indvpk

4、分類成六項

（二）結果

1、分類檢測的檢測率高於對全體資料檢測的檢測率

2、分類檢測的命中率相對於全體資料檢測的命中率亦有顯著的提升

五、結論

（一）本研究現提出的模型可以檢測出40%-80%的相關訊息，且所檢測出的訊息中有80%-90%是正確的提取。

（二）將訊息分層別類有助於提取更高價值的資訊。

摘要＿Practical extraction of disaster-relevant information from social media.doc

Google Sites

Report abuse