Finding eyewitness tweets during crises

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

尋找目擊者:分析災難事件Tweets的語言模式

Finding Eyewitness Tweets During Crises

Morstatter, F., Lubold, N., Pon-Barry, H., Pfeffer, J., & Liu, H. (2014). Finding eyewitness tweets during crises. ACL Workshop on Language Technology and Computational Social Science (ACL LACSS 2014). Baltimore, Maryland, USA, June 26 - 26, 2014

導讀者:李欣穎

原作摘要:

救災機構將社群媒體作為即時的消息來源,了解世界各地發生危機時人群的需求。這些救災機構從Twitter推文中尋找受危機影響地區的地理位置並更新資訊。然而,只有1%的推文具有明確的地理位置信息。在這項研究中,我們試圖確定無地理位置標記的推文,是否來自危機發生區域。我們試圖解決三個問題:(1)危機區域內的推文是否有語言之間的差異,(2)什麼語言模式可以區分來自(或並非來自)危機發生地區的推文,和(3)我們是否可以即時自動識別那些來自危機區域的推文?

1.          前言

Twitter用戶一天會發布2億則140個字符的信息(Tsukayama,2013年),往往涉及到實時熱門話題。每當災難性事件在世界各地發生時,Twitter用戶會以前所未有的規模蜂擁到自己的Twitter賬戶。最近的一個例子就是2013年的波士頓馬拉松爆炸事件。

由於Twitter的普及,以及涵蓋不同領域的討論,Twitter已經成為那些想要得知第一手資訊、了解危機情況的人所使的工具,並成為確定援助資訊的工具(聯合國,2012)。要做到這一點,人們的第一個反應是調查「包含地理標記」的Twitter推文:那些用戶所提供的地理位置。包含地理位置標記的推文的好處是,可以得知一個人是否是從受災難影響區域內發佈推文,或是從遠處發佈推文。來自災難發生區域的推文更可能包含事件的最新情形(Kumar等,2013),有助於理解事件發生現況(Verma等,2011)。但分析推文的一個主要限制是,只有1%的推文包含地理標記(Morstatter等,2013)。研究者第一時間收集的推文絕大多數(99%)不包含地理位置。此限制帶出了本研究的核心問題:我們是否可以僅從推文中使用的語言,判斷推文是否源於危機區域內?

我們以推文的語言來推斷用戶發文位置有三個主要的理由:(1)Twitter用戶使用的語言源自於他們所處的位置(Cheng等,2010),(2)每則推文都有文字,以及(3)相對於朋友/社會網絡、用戶歷史資料、Twitter API的局限性,文本允許即時分析。由於危機發生時有大量的訊息發佈,研究者需要能夠快速地定位用戶。

通過分析推文的文字,我們得以判斷一個人是否在事件發生位置即時地發佈推文。要如何識別無地理位置標記的推文是否從危機發生區域內發佈,我們的做法是發現危機發生區域內發佈推文語言的結構性模式。我們使用Twitter NLP(Twitter的自然語言處理)工具來看推文的詞性標註(Part Of Speech Tagging, POS)、句法和字的位階(the level of words)。這種方法非常適合用來即時處理,並且能擴展到大型的數據集。

在非危機發生時期,現有的預測推文發佈位置方法存在一些問題。過去的研究可以依據用戶過往的歷史推文,預測推文的經、緯度位置。但這種分析方法在危機發生期間為面臨挑戰:很難透過Twitter API進行即時的推文分析,而且並不是每一個推特用戶都有歷史資料可供研究者分析。

本研究的核心問題是區分一個單一的推文是否來自於危機發生地點。我們以波士頓馬拉松爆炸事件(the Boston Marathon Bombing)和桑迪颱風(Hurricane Sandy)作為分析案例,蒐集兩次事件時推特上的大量推文數據。為了解決如何在危機事件中,於推特裡尋找事件目擊者,我們評估和驗證三個研究假設:

1.      我們認為,受危機影響區域以內、以外,撰寫的推文之間存在語言差異(linguistic differences)。

2.      我們認為,有一些語言特點(linguistic features)可以用來區分推文是來自危機發生區域內部或外部。

3.      我們認為,這些分類過程可以自動化。

我們建立了一個結合語言功能、可以把推文區分為來自危機發生區域之內、之外的模型。我們審視了模型的分類結果,包括其分類推文的表現,並檢查模型在危機時刻識別推文的功能和能力。我們發現,Unigram語言模型、bigrams語言模型、詞性標記(Part Of Speech Tagging, POS)最能有效預測(informative)。最後,我們運用我們的模型,對無地理位置標記的推文進行評估,標示他們是否源自於危機發生區域。

2.          文獻探討

推斷特定文檔的地理起源,在社群媒體研究中已經成為一個重要的領域。過去的研究主要採取以下兩種方法:利用地域話題類型(geographical topic models)或是語言分佈模型(language distribution models)。地域話題類型主要依據用戶討論中涉及的地理位置資訊;此模型可以用來識別用戶的喜好,並且可以定位推文和用戶。語言分佈模型依賴更細緻的推文分析,例如Cheng et al. (2010)利用字彙組成的在地地理範圍(local geographical scope)來辨識用戶的推文,並且估計用戶的位置。Han et al. (2013)結合推文和metadata來預測用戶的位置。

無論是利用地域話題類型(geographical topic models)或是語言分佈模型(language distribution models),通常將所有用戶的推文彙整到一個單一的文件處理。相比之下,確定單一則的推文的地理位置起源,是本文的挑戰之一。群體性突發事件因為對於資訊更新時間有敏感的要求,急救人員一直在尋找利用Twitter作為危機期間的即時信息來源。我們發現語言功能(language features)和語言模型(linguistic patterns),可以幫助解決我們提出的問題。

3.          危機期間的語言差異

在本節中,我們驗證了危機發生之前、發生當下,推文的區域和時間有所差異(regional and temporal differences)。首先,我們介紹本文所使用的數據集。然後,我們從各個角度測量語言的差異,發現明確和對比的詞彙分佈(word distributions)。我們發現,語言的時間和區域,會隨著危機發生的時候出現變化,來自危機發生區域內、區域外的推文出現顯著差異。

3-1. 數據集

我們使用的Twitter數據來自兩個不同的危機:波士頓馬拉松爆炸案和桑迪颶風。這兩起事件引起了大量的Twitter用戶推文。我們在下面說明了數據集收集過程,以及如何以時間和位置(time and location)劃分數據。

波士頓馬拉松爆炸事件

2013年4月15日下午2點48分波士頓馬拉松終點線發生爆炸(以下簡稱波士頓轟炸)。我們利用Twitter的API收集推文,時間從爆炸發生數天前直到爆炸後,用「美國」地理位置標記來過濾推文。

桑迪颶風

桑迪颶風是一個在2012年颶風季節肆虐美國東海岸的颱風。我們同樣利用Twitter的API收集了「風暴」相關關鍵字的推文。該數據集包含有地理標記和無地理位置標記的數據,數據蒐集時間從風暴登陸數天之後開始。

數據切割(Data Partitioning)

收集完數據集後,我們依據地理位置的不同,劃分數據集為「來自危機發生區域」與「非來自危機發生區域」兩大類:

 1.數據屬性

2.整體推文則數

「來自危機發生區域」Inside the region of the crisis (IR)

「非來自危機發生區域」Outside the region of the crisis (OR)

我們把波士頓馬拉松爆炸事件數據集分成(1)在爆炸發生之前發佈(pre-crisis),且在危機發生區域內發佈(PC-IR);(2)在爆炸發生之前發佈,但在危機發生區域以外發佈(PC-OR)。所謂的爆炸發生之前,因為在推文的數量上有所差距,本文選擇在4月9日10:00 – 14:48之間的數據做蒐集時間。

3-2. 危機發生前後的推文數量差異

當危機發生時,在危機發生地區的推文數量是否出現變化?為了進行此分析,我們將波士頓轟炸數據集,依據每小時進行整理。我們發現,轟炸前(10:00-14:00)和轟炸後(15:00-19:00)的推文數量有鮮明對比。此外,我們也注意到,寧靜的時間是相對穩定的。

3-3. 危機發生區域內、外的語言差異

我們比較了美國各大城市,在危機事件發生前後,所使用的語言的區別:城市包括芝加哥、洛杉磯(LA)、邁阿密和波士頓。我們觀察到,在危機發生之前,各地的語言大致相同。一旦危機發生時,不同地理位置的用戶,使用的語言有較高的差異。「黑色格子」表示語言的概率分佈(probability distributions)之間有更多的分歧。

4. 研究方法:語言特點(Linguistic Features)

由於Twitter是一個對話的、即時的社群網站,Twitter提供研究者分析不同類型的非結構文字、分析不同語言特性的好機會。我們一共識別出6種類型的語言要素。最後,結合各種語言分析方法,我們創建了一個屬於「危機敏感」(sensitive to crisis)的語言要素,混合了單詞(word-based)、詞性(part of speech)與句法(syntactic constituent),標註他們為「危機敏感的」。這種組織方式使我們能夠分析不同的語言,並研究他們對於我們的研究問題的影響。

5. 實驗

為了評估我們的語言模型是否能有效區分來自危機發生區域內的推文,我們使用在前面建立的語言要素的分類器。在這一過程中,我們同時解決我們的最後兩個研究問題:我們發現,可以區分兩類用戶的特性,而且我們證明這個過程確實可以實現自動化。

個別要素分析Individual Feature Class Analysis

我們發現Unigram語言模型、bigrams語言模型,在兩個危機事件中都獲得較高的分數。我們也注意到,我們的「危機敏感」(sensitive to crisis)語言要素在兩個危機事件中都沒有表現(perform)。

6. 結論

本文對區別來自危機發生區域的推特推文發起挑戰。我們只使用語言作為區別要素。我們驗證了三個研究假設:(1)危機發生區域內、外,推文所使用的語言有所不同,(2)上述不同有助於區別推文發佈的地區,以及(3)我們是否可自動化地完成此一任務。我們發現,危機區域內、外撰寫的推文有所不同,包括推文發文數量的差異,以及與其他地理區域(其他城市)發布的推文數量也有所不同。運用這些差異,我們建立了6種類型的語言要素,可以幫助區分推文是否為危機發生期間創作的、是否來自危機發生區域。我們建立了基於語言特徵來自動識別推文區域的模型,發現我們的分類做得很好,而且這種方法適用於解決我們所提出的研究問題。

與本研究問題意識相關的概念與延伸對話:

1.             本文提供建立語言模型的步驟參考:蒐集語料à歸納類型à實驗驗證

2.             本文為災難事件的社群媒體文本分析提供了好的文獻引用資源

3.             本文透過發文數量、地區差異、時間差異、語言要素,辨識推文是否來自危機發生區域、是否於危機發生期間發佈。

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

資料狀況:

■電子檔(摘要/全文): Finding Eyewitness Tweets During Crises

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。

 

摘要 尋找目擊者:分析災難事件Tweets的語言模式.docx