What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets

水火計畫讀書會書目摘要單

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：

文本：What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets

作者：Rob Kitchin and Gavin McArdle

出處：Big Data & Society | SAGE Journals＠2016

網址：http://journals.sagepub.com/doi/abs/10.1177/2053951716631130

導讀者：楊恩加

原作摘要：

Big Data的特徵過往被許多文獻所提及和定義。像是3v: Volume、Velocity、Variety；或是像Exhaustivity、Resolution、Indexicality、Relationality、Extensionality和Scalability，但似乎仍有能更清楚描繪的方式。

在這篇文獻中作者以「甚麼造成了Big Data，Big Data?」做思考角度，建基於作者之一Kitchin's的過往分類方法，整理出七種領域中的26種資料集。大部分未達到Big Data的資料集，關鍵往往是Velocity和Exhaustivity。

作者認為以此釐清Big Data的本質，對日後的研究工作是相當重要的。

重點整理：

Big Data這一詞最早出現在1990年中期，被Silicon Graphics的前首席科學家John Mashey使用。在2001年Doug Laney將Big Data以三個特徵做描述：

Volume (整體資料量的多寡)

Velocity (處理過程是否需要即時性)

Variety (資料是否為結構化型態)

在此之後又陸陸續續有學者用其他特質來描述，像是：

Exhaustivity (對整個母體的掌握程度，而非僅有取樣)

Fine-grained(量化事物的清楚程度) & Uniquely indexical(資料是否能被辨別)

Relationality(是否能將許多不同資料集連接起來)

Extensionality& scalability(是否能輕易地擴充資料範疇和大小)

Veracity(資料是否能被允許為雜亂、缺值甚至是錯誤的)

Value(是否能從資料中重新發掘更多洞見(insights))

Variability(資料能否隨著產生的脈絡下有不同的詮釋意義)

作者之一Kitchin藉由回顧過往對Big Data的這些定義，定義出與過去小資料的不同，如下表所示：

Small data Big Data

Volume Limited to large Very large

Velocity Slow, freeze-framed/bundled Fast, continuous

Variety Limited to wide Wide

Exhaustivity Samples Entire populations

Resolution and indexicality Course and weak to tight and strong Tight and strong

Relationality Weak to strong Strong

Extensionality and scalability Low to middling High

無獨有偶，Florescu等人則將Big Data與Survey data和Administrative data加以比較，作者之一Kitchin加以擴充一些項目，如下表所示：

相對地，除了專注Big Data的構成本質，也有學者用電腦存取和計算的難易度做探討，而區分出六種特徵：

資料：

即時性與否

結構性資料與否

計算基礎架構：batch or streaming

儲存基礎架構：SQL、NoSQL、NewSQL

分析方法：監督／非監督式、機器學習、資料探勘、統計方法

視覺化方法：地圖式、概要式、互動式、即時式

隱私及安全議題：資料隱私性、管理議題、資訊安全

儘管有以上這些分類方法，但似乎仍未達到一清晰可見的效果。因此此篇論文嘗試將分類擴展成七種領域，26種資料集種類。以此更加理解Big Data，但並非武斷認為此分類已是最佳方式。

在上表中我們將第一張表的向度做一擴展：Volume拆解成三項，Velocity拆解成兩項，Resolution和Indexical分開，Extensionality和Scalable分開，因它們似乎不再為同質屬性。

在Big Data的脈絡中，Volume一般會跟儲存資料的空間有關。但在這26種資料型態中，像汙染、音源偵測則相對需要較少的儲存空間，因此作者將Volume拆解成三項：資料筆數、每筆資料所要的儲存空間、整體所需要的儲存空間。

對Velocity作者也同樣區分出產生的速率，和處理的速率兩種面向，因考慮到像是設計每四分鐘的定位資料，或是使用者點擊才需傳輸的資料流這些特質。

Resolution需要和Indexical分開，是因為有像是同時給予圖片這類非結構化資料，和一些文字等結構化資料的推特或閉路電視(CCTV)等領域。

Extensionality和Scalable一般與資料生成的彈性有關，但像是感測元件，信用卡讀取機會在資料屬性上做擴充，而像Twitter則會考慮同時有幾千人或幾百萬人同時在線的格局。

我們發現沒有任何一種資料集完整地符合Big Data每個向度的要求，可以說這世上有很多不同種的Big Data。而主要區分出Big Data和小資料間的差別，則主要在Velocity和Exhaustivity這兩部分。總結來說，過往曾有迷思，認為只要是Big Data，往往都會有許多共同特徵。但如同作者的這個分類方式，才把其輪廓做了清楚的說明，而Velocity和Exhaustivity往往是最關鍵的。換句話說，過往的3V分類是種誤導，而做一本體性質的架構分類對於日後研究非常重要。

與本研究問題意識相關的概念與延伸對話：

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

數位時代的淘金術 ─ 從Big Data到人工智慧：陳昇瑋中研院資訊科學研究所研究員（https://www.youtube.com/watch?v=X-Q72NiI3SQ&t=3s）

與危機傳播相關之關鍵字及其概念內涵：

□ __________：

資料狀況：

■ 電子檔（摘要／全文）:

□ 紙本（摘要／全文）:

□ 其他狀況：

如有重要相關圖表及附件請附在本頁後面，並在「其他狀況」項目內註明。

水火計畫＿文獻導讀_What makes Big Data, Big Data.docx

Google Sites

Report abuse