CRITICAL QUESTIONS FOR BIG DATA

水火計畫讀書會書目摘要單

書名(以學術體例詳填資料,網路來源提供超連結及檢索日):

danah boyd & Kate Crawford (2012): CRITICAL QUESTIONS FOR BIG DATA, Information, Communication & Society, 15:5, 662-679

導讀者:黃淑琳                              

原作摘要:

 

社交媒體互動、健康紀錄、通話紀錄、政府檔案等越來越多領域開始使用big data,也討論他的潛力與成本,不過有些重要的問題逐漸浮上檯面。像是大規模的data是否能夠幫助創造工具或服務;資料分析能夠幫助理解線上溝通傳播和政治運動嗎?他能否用來追蹤抗議者,甚至壓抑言論?有太多文化、科技、社會等問題需要探討,這篇文章將討論big data的假設與偏誤,並提出六個相關議題。

 

重點整理:

 

Ÿ   作者將big data定義為奠基在科技(電腦運算技術、大量連結、分析能力)、分析(找出經濟、社會、科技的趨勢)與神話(大眾普遍認為big data能提供進階智能或知識,解決以往懸而未決的問題,且更為客觀真實)交互作用下的現象。

Ÿ   由於作者的興趣與專業在於社群媒體,因此這篇文章將特別針對社群媒體脈絡中的big data議題進行討論。以下是作者提出的六大議題:

 

1.          Big data改變知識的定義

Ÿ   就像20世紀初福特主義徹底改變製造流程一樣,Big data的出現不僅採用了大量的數據、方法工具和研究過程,在思維與研究方面也產生了「向運算轉(computational turn)」。

Ÿ   Big data重新形塑了知識建構與研究流程,以及人們應該如何處理資訊與分類。研究者也需要理解Big data相關的研究工具有其先天限制,以fb和twitter為例,他們存取與搜尋功能並不理想,因此研究者需要專注於當下或剛過去的事件搜集資料,因為舊資料很難或幾乎無法取得。

 

2.          Big data不見得比較客觀和正確

Ÿ   雖然大多人認為數據是客觀的,但研究者處理Big data時仍是加入了主觀因素。研究者是數據的詮釋者,他們對於數據的想像、選擇或排除的變數,以及詮釋方式未必中立客觀。

Ÿ   除此之外,還有數據謬誤(data error)的問題。Big data大部分是從網路取得,但網路卻非如此可靠,易受到停電、遺失等影響。因此雖然Big data或許有上百萬的數據,卻很難宣稱他是隨機或具代表性。

 

3.          Bigger data不一定是better data

Ÿ   雖然Big data提供了大量的數據,但不代表這樣的研究方法是合適的。

Ÿ   很多Big data研究從twitter之類的網站找出人們在特定事件發生時的行為。但是twitter使用者不代表people,而且帳號與人之間的連結為何、有無斷裂?如何判別active account就是個問題,有可能是多人持有一個帳號,或是一人持有多個帳號,又或者是機器人帳號。

Ÿ   Big data不等於全部的data。twitter會過濾掉問題字眼的tweets(像是色情暴力等),因此能撈到的資料樣本無法呈現完整的data。

Ÿ   研究者在撈資料的時候,只能撈到公開tweets,且不確定手上的樣本與全部tweets的比例關係。因此雖然twitter成為Big data研究最熱門的資料來源,卻很難保證他們用來分析的數據品質。

Ÿ   data規模和研究價值不成正比,重新發掘小研究的價值(ex. 個案研究)。

 

4.          Big data需要在脈絡下才有意義

Ÿ   這部分多以社群網站為例。討論在網路上收集到的訊息,無法確實反映使用者線下的真實關係。

Ÿ   Big data無法在脫離研究脈絡下使用,因此如何在適用於Big data脈絡下作研究仍是挑戰。

 

5.          資料取得的道德問題

Ÿ   雖然很難要求研究者在撈資料前,取得所有public tweets發布者的同意,但是Big data的研究倫理也不能被忽視。

Ÿ   涉及Big data的權力問題:研究者有取得Big data的途徑與方法,但是使用者沒有。

Ÿ   Big data研究者很少關注「置身公開(being in public)」與「主動公開(being public)」的差別。

 

6.          有限取得big data造成新數位落差

Ÿ   不是所有研究者都有研究Big data的技術、取得Big data的途徑!

Ÿ   在Big data領域中有三種人:製造data的人、有方法收集data的人、有專業分析data的人。最後那種人數量最少,但他們卻能決定使用、分析Big data的方式,因此研究的方式應受到檢驗與質疑。

 

Ÿ   Big data的時代才剛剛開始,但質疑這種新研究方式的假設、價值與偏誤已經刻不容緩!

 

與本研究問題意識相關的概念與延伸對話:

 

在Big data領域中有三種人:製造data的人、有方法收集data的人、有專業分析data的人。

→找出原始定義或描述

 

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

 

Manovich, L.(2011)‘Trending: the promises and the challenges of big social data’,in Debates in the Digital Humanities, ed. M. K. Gold, The University of Minnesota Press, Minneapolis, MN, [Online] Available at: http://www.manovich.net/DOCS/Manovich_trending_paper.pdf (15 July 2011).

 

與危機傳播相關之關鍵字及其概念內涵:

□ __________: 

□ __________:

□ __________:

□ __________:

資料狀況:

■ 電子檔(摘要/全文):    全文    

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。

 

摘要_CRITICAL QUESTIONS FOR BIG.docx