New Political Communication Unit Working Paper

摘要 Text mining and social media.doc

水火計畫讀書會書目摘要單

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

Ampofo L., Collister S., O’ Loughlin B., Chadwick A., (2013). New Political Communication Unit Working Paper.

導讀者：朱蘊兒

原作摘要：

文本挖掘技術為政治傳播提供了一個方便快捷的方式，得以從社群網絡中直接獲得公民對政策、政治組織及政治事件的看法，本文回顧目前已有的技術與研究方法，並且討論在哪些情境中它們可以被最優化使用，以及它們可能帶來的倫理危機。

文章分章節討論了以下內容：①文本挖掘的基本定義；②介紹商業、媒介以及政治領域是如何使用文本挖掘技術的案例；③線上社群媒介分析中使用文本挖掘面對的挑戰；④介紹目前可得的文本挖掘工具；⑤介紹作者使用文本挖掘技術進行的兩項案例研究：2010年英國大選及霸凌門。

重點整理：

一、定義

1.文本挖掘：使用軟體工具，自動化地找到埋藏在不同（結構化或非結構化的）文本資料中的新訊息；

2.結構化資料：以某一固定模式存在的資料，這類資料通常都來源於資料庫。

二、社會科學領域中的文本挖掘應用

在學術領域中，文本挖掘被率先運用於自然科學學門，因為它可以有效地分析大量、分散的資料，從中找到模式與趨勢。另外，文本挖掘也被運用於減少學科研究的重複，增進學科內合作，評估長時間內研究數據的一致性（Rzhetsky et al., 2008）。

隨著Web 2.0與社群網絡的出現以及分析工具的進步，文本挖掘開始從靜態數據分析轉入實時運算和預測，尤其在政治、公共健康及商業領域。

1. 政治：

1.1 民調：

² Lindsay(2008)樂觀地認為實時文本分析可以成為傳統民調的替代或補充。

² 但在2010年選舉的實證研究中發現社群媒體由於以下幾點原因無法提供有效的民意預測：①不具代表性，網民不等於選民；②商業文本挖掘公司不願意公開研究方法，導致無法查證其資料來源、分析過程是否可靠；③無法識別出反諷。

1.2 網絡輿論風向：情緒分析

1.3 政治人物公關：根據網絡輿論風向更改選舉策略，如辯論或新聞發佈

1.4 社會運動：Leetaru(2011)對廣播、報紙和線上資源進行情緒分析及地理分析，來辨識出社會運動中的領袖人物，以及預測社會運動爆發。

2. 商業：

2.1 銷量預測智慧（predictive sales intelligence）:運用於電影票房預測，分析網絡評語以提升服務，電視節目網絡口碑實時偵測。

2.2 經濟環境預測：網絡民意可預測股票變動（Bollen, 2011; Gilbert, 2010; Lidman, 2011）；

3. 公共健康：

3.1 實時預測疾病與災難傳播：監測社群媒體以識別、分析、預測疾病與災難的傳播路徑（Culotta, 2010），又如Chunara等人（2012）成功使用線上資料追蹤2011年海地霍亂的散播。

3.2 檢驗政策宣導結果：測量公眾的疾病意識

3.3 預警系統：Twitter對地震的討論比傳統系統還早

三、機器協助的質性分析軟體（CAQDAS）

CAQDAS是文本挖掘的一種，有幾項功能：

1. 歸納：常需要將分散的資料（如田野筆記、訪談記錄、社群媒體資料）進行歸納、整合。

2. 資料管理：搜索文本

四、自然語言處理（NLP）

CAQDAS的重要組成就是自然語言處理，一個可以讓研究者對日常語言表達進行深度探索的工具。NLP的發展可以分成三個階段：

1. 1960年代：Jones提出NLP關注的不是語言的精確性與完整性，而是隨性的、日常的但有邏輯的語言，且更重要的是找到可以應用這個邏輯的演算法。

2. 1980年代：NLP將希望寄託于計算語法理論（computational grammar theory）以及語料庫的發展，希望通過計算語法理論可以解決語言中時間標誌及情緒的分析。

3. 1990年代：納入統計學方法以處理語言，且開始研究機器學習。

五、情緒分析

情緒分析已經成為文本挖掘領域炙手可熱的一個主題。

Mejova認為情緒，即語言中的主觀因素，常常都只是一個簡單的詞彙或短語，也就是說情緒存在於非常小的語言單位中。但由於語言的內在複雜性，使得情緒分析在處理最基本的日常溝通用語時都顯得無力，線上溝通更是增加了這個複雜性。

不足之處：①無法判斷這個句子中的情緒是來自第一人稱的我還是第三人稱的他/她。②無法將語境納入考慮，同一詞彙的多歧意存在被消弭。

六、挑戰

1. 科技決定的自動化研究也許會讓我們產生全知者的幻覺，誤以為自己只要分析數據的模式就能對複雜、多元面向的真實已經了如指掌。一個解決的途徑是將文本挖掘與網絡民族誌結合。

2. 網絡變化太快，一個研究超過12個月就會失效。一旦網絡的界面、載具改變，結論就無法適用。

3. 不存在通用的研究方法，再大的數據庫也無法保證研究者能得到好的結論。

七、實踐問題

1. 樣本偏差：研究者可能將自身的偏誤帶入樣本選擇中。

2. 情緒化表達不等於行動。

3. 多元語言辨識問題：非拉丁語系的語言使用廣泛，如中文、日文、西班牙文，以至於有些廠商將自己的產品成為是「語言不可知論的產物」。這個問題可以通過聘用這些語言的使用者作為編碼者。

4. 俗語及元語言的發展使問題更複雜。元語言（meta-language）指的是用以討論語言本身時使用的語言。

5. 計算機只能處理語法「正確」的文本，碰到網絡中的俗語就無能為力，ex. LOL--speak。

6. 無法在沒有人為參與的情況下將持續變化的語境納入分析，監督式機器學習要比非監督式來得效度高。

八、倫理

網際網路的研究總是在未取得知情同意的情況下，就先進行分析，這與人文科學領域的倫理規範相違背。但在1990年代，研究者間建立起一個模糊的共識：要進行有效的機器輔助傳播研究，就需要對原本人文學科的倫理要求做一些改動，尤其考慮到網際網路的公開性（使用者在發表言論時就已經設想到這言論會曝光于公領域）。Rafaelli說道：「網際網路的公開言論就像墓碑碑文或墻壁塗鴉一樣，它是個人的，但不是隱私的。」但這個觀點並不總是管用。

九、進用

社群媒體資料的取得並非公開透明，它具有商業與政治價值，因而總是為有權或有勢或有錢的人所佔有。也就是說，網際網路中的訊息流動會受到商業或政治之墻的阻擋。

例如FB將它們的資料緊握于手中，允許與它有合作關係的企業或內部研究者優先使用，比如廣告商或開發者，而第三方研究者不在進用範圍，且FB對於資料的限制正往越來越嚴格的方向發展。

Twitter在2010年為了增加盈利而對資料的可得性進行了一次管控，但在本文寫作時作者還能獲得全部（firehose）或10%（gardenhose）或1%（spritzer）的公開貼文，要獲得全部貼文需要付出1000到1500美金/月不等，視需要多少欄位而定。2011年Twitter進一步封鎖了用戶向其他網站分享推文的功能，讓研究者無法以間接方式取得推文。

然而Twitter對資料的限制並非沒有迂迴超越的方法。儘管推文內容和追蹤關係無法被分享，但一些衍生資料，如正面情緒的推文「數」以及推文ID、用戶ID卻可以被分享，研究者可以利用這些訊息加上statuses/show和users/lookup語句來找到貼文內容。但這些迂迴方法無法被大量操作，因而獨立的大規模文本挖掘仍然要受到限制。

除了政策之外，另一個限制來自於APP的發展。隨著2000年代末智慧型手機及平板電腦大發展，管制這些設備的協議也跟著發展。這些設備使用網際網路作為傳輸管道，但不使用瀏覽器作為展演平台」的特性給研究帶來了很多困難。APP的擁有公司可能是新形態的資訊守門人。

未來，學術研究的文本挖掘能力能同商業組織相比嗎？研究者還能獲得這些重要的論述資料嗎？一切尚是未知數。

十、文本挖掘工具

1. Sysomos MAP：最初由多倫多大學研發，是目前最好的商業文本挖掘工具之一，它提供200億筆社群媒體資料，涵蓋多個平台，包括部落格、留言板、Twitter和FB公開資料樣本，提供檢索服務，可以根據人口地理訊息進行篩選。同時它可以以每小時80億筆資料的速度建立新資料索引，幾乎接近即時，因而也是實時監測的好工具。Sysomos購買了Twitter完整的資料，包括1億位用戶的資料。它不但內附了基本情緒分析功能，同時還允許研究者複寫情緒分析結果，賦予研究者更高的能動性，可以依據研究問題更改分析結果，但Sysomos的演算法不會根據人工分類的結果進行機器學習。Sysomos的資料提供多種格式下載，但最常使用的還是CSV。儘管有一些其他工具類似Sysomos，如Radian6和Attensity，但Sysomos的優點在於易於上手，且相對便宜。

2. NetBase：擁有1億資料，它雖然沒有Twitter的完整資料庫，但它的優勢在於它有FB的所有公開頁面資料。它除了 Sysomos的一些基本功能外，還附加了另外一個功能——給關鍵字詞分組，並且按照這個分組結果為資料自動編碼。但它的劣勢是，它不提供CSV格式的下載。

3. Crimson Hexagon Forsight：提供多種功能，包括主題、情緒、地理、影響力分析，更重要的是Forsight的演算法是可訓練式的，研究者可以人工為資料編碼，然後指引Forsight學習編碼結果。它對學術及非盈利社群非常友善，提供以物易物式使用模式（in-kind access）。

4. DiscoverText：為研究者提供專門服務，例如雲端協作人工編碼，還有編碼員及項目兩個層面的檢驗工具，在編碼員層面提供的是編碼員間信度檢驗，最重要的是，它提供客製化的可訓練的分類器，可以用於情緒分析或主題分類。另外，研究者可以付一筆錢來獲得Twitter的完整資料。

5. Linguamatics I2E：案例1就是使用這個工具，由劍橋大學開發，免費提供10%推文，含有情緒分析、文本分類等功能，但問題是I2E作為商業軟體，其內部運算邏輯始終保密，對於有同行評審要求的學術發表作品來說會構成問題。

十一、文本挖掘技術之實踐：案例1 -2010年英國選舉

本案例研究的Twitter用戶在英國首次（2010年）首相候選人電視辯論期間及其後短時間內的反應。它從屬於一個旨在討論「突發性事件中實時輿論反應的研究方法」的整合研究案。

這次電視辯論最大的吸睛點就是：在每一階段結束后電視會展示即時民調。Comres公司通過電話訪問的方式在6秒鐘內獲得即時民調，它的方法是給受訪者一個鍵盤以表達支持意見。電視辯論節目有其情節結構，即一問一答，每一次候選人回答問題都是關鍵性的時刻。Linguamatics公司就在這些關鍵時刻搜集這一時間段中的社交網絡網民意見，並且快速找出規律。

Linguamatics公司也嘗試將這個模型運用到預測最終結果，但卻失敗了，失敗的原因在下文中詳述。

文本挖掘流程：

Setup

1. （人工）由領域專家決定關鍵字

2. （科技）初步資料搜索、整合、分類

3. （人工）通過更精細的關鍵字來清洗資料

During實時檢測事件發展

4. （人工+科技）從社群媒體持續流入的資料流

5. （科技）使用I2E處理資料

6. （人工）以變動的觀點詮釋結果

整合與展示

7. （人工）同其他資料進行整合，如股票價格、商品銷量或傳統民調

8. （人工+科技）使用視覺化工具渲染研究結果，使其更容易理解

如圖所示，Y軸表示的是每分鐘的正面推文數，排除了與提及候選人但未提及相關議題的貼文，總共4082則，數量小，因而可以通過人工編碼來與I2E編碼結果進行比對驗證。統計每個議題中候選人的正面貼文發現Clegg和Brown在移民問題上一起領先，Clegg在銀行與稅收問題上領先，Brown在經濟問題上一馬當先。

有趣的是，這三人最後的得票率與三張圖的走勢相近：卡梅倫獲得36.1%，Brown獲得29%，而Clegg獲得23%，Clegg獲得23%。

通過Twitter來預測選舉結果需要小心幾點：Twitter用戶並非選民，網絡中的發言不能與實際投票行為劃等號，且在最後一次電視辯論到投票期間還會有其他事件發生。相對傳統民調來說，此種研究方法既缺少效度也缺少代表性，所以也不具有預測能力。但此類研究卻可以回答另一類問題：哪位公眾人物說了什麼話會引起誰的意見？為什麼？為什麼一項議題會反復出現在辯論中？誰有能力影響輿論環境？同時它還能回答過去唯有通過小規模深度訪談才能有回答的問題，如個人歸因以及他們對政治人物的情緒。

Linguamatics團隊認為自己所做的事情屬於「質性」而非「量化」，因為它討論的是輿論如何形成，且它對俗語和語言習慣、更廣闊的文化脈絡保持著質性研究的審慎。

如圖5顯示在20:45分，卡梅倫的正面討論到達了一個陡峭的高峰，但此高峰的形成原因與著名喜劇演員Chris Addison有關，他在Twiiter上開了一個卡梅倫的反諷玩笑——「sky poll just in! David Cameron won the debate!...」，暗諷向來親右的梅鐸擁有的Sky TV所推出的民調不實，刻意操縱民意來支持卡梅倫，他的追隨者大量轉推了這條評論，而反語可能會誤導分類器（甚至人工編碼員）將其識別為正面情緒。但好處也是這種誤讀讓研究者得以關注這條反諷推文為什麼可以引起如此大量的轉發——大眾對於傳統民調已經成為一種政治工具的不信任。

這個案例給我們的啟發是：文本挖掘還需要繼續往提升信效度、提供多元語言工具和使用社群媒體來區分不同類型選民的方向發展。同時也需要認識到人工與科技的合作非常必要，不應該採用全自動化的分析。

十二、文本挖掘技術之實踐：案例2 -2010年英國霸凌門

霸凌門是2010年總統候選人Brown的一則醜聞。在投票日前幾天，由英國著名記者Andrew Rawnsley寫的一本關於工黨政府的書中的一段話被Observer報紙摘要出來且刊登，內容為Brown稱他唐寧街的同事心理和生理有問題。這則新聞對選戰最後的結果影響甚頗，不僅因為發佈的時機，還因為它的個人化傾向，直接將他定性為人品有問題的人。

後來事情越演越烈，一個名為全國性霸凌幫助專線的組織聲稱自己收到過唐寧街10號的求助。進而引起Twitter和傳統媒體進一步激烈的爭辯，網友們懷疑Observer如此明確的指摘動機為何、是否真實，他們還找到了反證Brown沒有霸凌的證據。

本研究的目的是為了超越傳統媒體對該事件的報導，重塑一個涵括了包括非精英行動者在內的各方力量的敘事，還原當時複雜的訊息流動情況。同時也是對精英導向的政治傳播的一次詰問，原本我們認為政治新聞是由一小群精英（政壇與新聞界）互動后進行規範且嚴格管控，然而如今新媒體的出現是否有改變這層權力關係並且重塑新聞呢？

困難之處在於：

① 新聞工作形態的轉變：新聞記者不分晝夜地發文，發難以被分類的文章；

② 記者內容管理系統和編輯政策：決定了記者發文、更新、變動、配圖以怎樣的形式呈現，且大部分的部落格和少部分主流媒體，如衛報和經濟時報，對消息來源進行匿名處理（transparent about an article’s provenance）；

③ 經常會遇到過期無效的頁面；

④ 文章中貫穿著URL等延伸內容，反映出文章的不同視角（因而也需要被納入研究中）；

⑤ 文章可以在原網址的基礎上被修改、複寫，而這些改變並不告知讀者。

克服困難的方法：

① 對關鍵政治部落格與主要的新聞網站進行監視；

② 使用免費且合法的Google訂閱（RSS feeds）功能，一有變動即通知用戶；

③ Google RSS訂閱結果被存儲于Google Reader；

④ Google Reader的結果匯出至Evernote；

⑤ 電視節目內容使用Box of Broadcasts存儲；

⑥ 對Twitter內容進行實時監測，監測「national bullying helpline」賬號，及#rawnsleyrot和#bullygate這兩個hashtag；

⑦ Twiiter回溯資料：Twiiter只提供搜尋前三週的資料，為了解決這個問題，研究者使用Google Replay Search，這項工具可以追溯到2010年2月早期的資料，但它無法自動偵測到賬號名稱的變化，因而同一id的不同賬號名會被誤認是不同人，這項問題需要以人工的方式解決；

優點：儘管更耗費時間，但這個研究方法相較於一開始就設置好參數的自動化文本挖掘程序來說，更適用於分析突發性政治事件、政治危機，會發現一些意外的行動者、語言使用的轉向，語用轉向也是權力關係變化的體現。尤其以Hashtag來說，它們快速地被創造、採納、丟棄，新的hashtag再被其他行動者創造以改變輿論發展，如此循環，對於揭示政治事件情節發展及敘事轉向作用十分大，但往往會被自動化程序忽略。

十三、結論

文本挖掘在社會科學領域變得越來越重要，它就像一個潘多拉的盒子一樣，充滿誘惑，但打開后還需要面對本體論、倫理、科技及法律問題，更重要的是，社會的不可化約性與複雜性並不會因此而產生改變，所以將文本挖掘完全留給機器是一項不明智且不可能完成的選擇。所以好的研究方法應該是結合數種研究方法，正如Crawford(2013)所說「複合型方法才能回答人們為什麼這麼做，而不僅是回答人們多常（頻率）做某事的問題，換句話說它需要社會學的分析能力與人類學的深度觀察的視角，加上資訊檢索與機器學習的能力」。

此一要求挑戰了質性與量化之界限，因為線上數據的分析工作其實也是大規模的質性分析，而這個過程的前提是用量化的方法對數據進行一個概覽。John Law和Callon(2003)定義為Qualculation：統計分類與排序的目的都是為了能夠對情境之公平與顯著性進行質性判斷。

當代的數位研究（e-research）為我們構築了一個嶄新的跨領域視野，並且為複雜問題的解決提供了新的機遇——資料可以被實時存儲、分析與視覺化。但存儲下來的資料未必有價值，研究者往往會先存儲意義未明的資料，且期待它的價值之後會自動顯現。這篇文章的目的就是為了闡明這種不確定性，邀請讀者一起討論不同研究方法整合的可能性。

與本研究問題意識相關的概念與延伸對話：

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

與危機傳播相關之關鍵字及其概念內涵：

□ __________：

資料狀況：

■ 電子檔（摘要／全文）: 全文

□ 紙本（摘要／全文）:

□ 其他狀況：

如有重要相關圖表及附件請附在本頁後面，並在「其他狀況」項目內註明，如：附圖二張。

Google Sites

Report abuse