將資料進行處理或分析轉換化為資訊的過程,稱為資料處理。
一、資料與資訊
資料(data)是指未經過處理的內容,只是描述客觀事實的紀錄,本身並不具特定意義,只有將資料經過適當處理、解釋後才具有意義。
資料的處理通常包括分類、歸納、分析、解釋等過程。
資訊(information)是將資料依特定目的進行處理,產生具有意義的相關訊息。
例如某班級期末考成績的原始資料,經過處理後,得到班上每個學生期末考的平均分數,從分數最高至最低的排名等結果之資訊。
資料處理的過程
資料處理的型態
二、資料前處理
資料清理
資料清理是資料前處理的第一階段,目的是將原始資料中可能的「缺失值」或「錯誤值」轉換成適合存取使用的資料。
主要的工作包括:修補遺漏、處理異常或極端數值及雜訊問題、修正資料的不一致。
去除異常極端數值及雜訊,必須要先透過偵測或除錯方法來找出哪些可能是不合理的資料,然後逐一修正,例如銷售數量出現負值或國中生年齡明顯異常。
雜訊不一定全是填寫錯誤造成的,也有可能是填寫資料時未注意格式不同或資料中原本就包含特例而產生。
資料整合
資料整合是資料前處理的第二階段,也可稱為合併資料,是將不同來源與格式的資料進行整合,目的在處理原始資料不一致或出現重複的情形。
但因原始資料可能來自於不同的資料源,就有可能產生資料對應不起來或重複的問題。
資料轉換
資料前處理的第三階段是資料轉換,是為了讓資料的數值在分析處理時不會產生誤判錯誤,重點在於資料數值要如何轉換。
例如某一跨國企業的商品銷售在臺灣是以新臺幣計價,在美國是以美金計價,當兩地的銷售資料整合時,若沒有經過適當的幣值單位轉換,便會產生不正確的結果。