一、文字資料
若要將各種類型的資料儲存在電腦裡,就需要將資料轉換成電腦看得懂、記得住的數位化格式。
本節將依序說明各種資料類型在電腦中的表示方式。
由於電腦只能接受0 與1 的數位格式,所以英文字母、數字、符號等文字資料(text data)都必須轉換成位元型態來進行儲存與處理。在解讀時,則必須再將這些位元轉回對應的文字資料加以呈現。
電腦對應的編碼系統(encoding system),圖為英文字母A 的編碼轉換示意圖,當按下鍵盤的A 鍵時,電腦會將其轉換成代碼01000001,然後根據編碼系統將代碼轉換為對應的文字A,再輸出到螢幕上。
英文字母、數字及特殊符號常用的編碼系統為ASCII碼,BIG-5 碼則是常用的正體中文編碼系統,而Unicode 是為了處理各種語系(如中文、日文、拉丁文等)所制定的編碼系統。
ASCII 碼
ASCII 碼(American Standard Code for Information Interchange)是美國國家資訊交換標準碼,是由美國國家標準局於1963 年所制定,也是目前使用最廣泛的編碼系統。
它最多只能表示128 個(2的7次方=128)不同的字元符號,也就是我們在鍵盤上看到的大小寫英文字母、阿拉伯數字、標點符號等。
有廠商將ASCII 碼擴充為8 個位元,稱為擴充ASCII 碼(Extended ASCII Code), 如此一來, 最多就能表示256 個(2的8次方=256)不同的字元符號。
BIG-5 碼
國人針對正體中文設計了各種中文編碼系統,常見的有BIG-5 碼(又稱大五碼)、CCCII 碼(Chinese Character Code for Information Interchange)等,目前最普遍的是由資策會所制定的BIG-5 碼。
BIG-5 碼是以16 個位元來表示一個中文字,最多可表示65,536(2的16次方 = 65,536)個中文字。
Unicode
Unicode(或稱萬國碼)編碼系統是由美國萬國碼制定委員會於1988 至1991年間所制定的。Unicode 使用16 個位元來表示字元符號,最多可以表示65,536(2的16次方 = 65,536)個字元符號。
繪文字(emoji)
繪文字即一般所稱的「表情符號」,在目前行動裝置及即時通訊輸入時經常會使用到。
Unicode聯盟在2010年發表的Unicode Version 6.0中,首次收錄日本無線通訊中使用的視覺情感符號-Emoji編碼正式規範Emoji的編碼及其相對應的表情符號,之後每年也會發布最新的Emoji圖案。
二、聲音資料
聲音(audio)是連續性的類比訊號,為具有波長及頻率的波形資料,因此必須先將訊號數位化,轉換為0 與1 的數位格式之後,才能為電腦所接受。
將聲音的類比訊號轉換成數位訊號的過程,就稱為音訊編碼(digital audio coding)。
音訊編碼
音訊編碼的過程主要分為取樣(sampling)、量化(quantizing)、編碼(coding)三個步驟。
取樣頻率與取樣大小
在進行音訊取樣的時候,有兩個項目會影響聲音數位化的品質:
取樣頻率:即每秒鐘聲音取樣的次數,單位為赫茲(Hz, 次/秒)。取樣的頻率越高,聲音的品質就會越好,但相對地,資料量也會較大。
取樣大小:即每次取樣所佔用的空間大小,單位為bits,一般可分為8 bits、16 bits、24 bits、32 bits等。取樣的位元數越高,聲音的品質也會越好。
聲音壓縮
壓縮檔是依據特定演算法的計算方式將檔案變小,可分為破壞性壓縮(lossy compression)與非破壞性壓縮(lossless compression)兩種方式。
主要差別在於壓縮前的原始檔案與還原後的結果檔案是否有失真現象。
「破壞性壓縮」壓縮比率大,但容易失真;「非破壞性壓縮」壓縮比率小,還原後不會失真。
檔案大小與音效品質依序為:無壓縮>非破壞性壓縮>破壞性壓縮。
常見的聲音檔格式
三、影像資料
電腦中的影像資料(image data)也是由0 與1 的數位格式所組成
轉換原理與聲音資料類似,是先對影像的位置進行「取樣」,記錄影像中每一取樣點的顏色、位置等資訊,再將這些資訊「量化」為數值形式,最後透過「編碼」轉換成電腦可接受的數位訊號。
點陣圖
點陣圖(bitmap image)是一種常見的影像格式,它是以像素(pixel)來記錄影像,點陣圖的原理就像是將影像分割成許多的小方格
一個小方格即為一個像素,每個像素都有其特定位置、顏色等相關資訊,而這些資訊決定了該影像所呈現出來的樣式
點陣圖的優點是可以呈現真實風貌,缺點是影像若經由放大處理後,容易出現失真的現象。
點陣圖檔適合用於精細的攝影或數位應用。點陣圖中的像素能使高解析度圖形的顏色變化更順暢,並且更清晰地顯示細節。
解析度(resolution)是衡量影像品質的因素之一,指的是每英吋所包含的像素數量,其單位為ppi(pixels per inch)。
影像中的像素越多,表示其解析度越高,但所佔用的記憶體空間也越大。常見的點陣圖檔格式有:JPG、TIFF、BMP、PNG、GIF 等。
向量圖
向量圖(vector image)是以數學運算為基礎,每個物件都是單獨的個體,以點、線、面,以及點線面之間的屬性為基本架構,而這些屬性決定了畫面上所有點、線、面的相關位置。
向量圖在檔案格式上可以完整保留各個點線面的顏色、形狀、輪廓、大小和位置等屬性,不會失真或產生鋸齒狀。
向量圖的圖片檔案較小,由於它的畫面色彩比較單調,因此無法製作高品質的影像作品。
常見的向量式圖檔格式有:EPS、WMF、AI、CDR、SVG 等。
常見的點陣圖檔格式
影像壓縮
影像壓縮是根據原始影像資料與某些演算法來產生另外一組資料,可分為「破壞性壓縮」與「非破壞性壓縮」兩種方式,它們主要的差別在於壓縮前的影像與還原後的結果是否有失真現象。
破壞性壓縮的壓縮比率大,但容易失真
非破壞性壓縮的壓縮比率小,還原後不容易失真
四、視訊資料
影像是一個一個的靜止畫面,當一個個的畫面快速播放,快到讓人感覺畫面的變化好像是在動的動畫,這動畫就稱為視訊(video)。
視訊是利用視覺暫留(persistence of vision)原理,讓影像產生移動的感覺,視訊可說是由影像和聲音兩種要素所構成。
什麼是「視覺暫留」現象?
視覺暫留是指我們的「眼睛」和「大腦」聯合起來欺騙自己所產生的錯覺。
當有一連串的「靜態影像」在眼前快速地循序播放時,只要每張影像的變化夠小、播放的速度夠快,我們就會因為視覺暫留而產生影像移動的錯覺。
類比視訊是直接利用一張張的類比影像來產生,具有固定的畫面更新頻率,數位視訊則是由一張張的數位影像(以像素為單位)所構成。
常見的視訊檔案格式
一般常見的視訊檔案格式有AVI、MPEG、MP4、RM/RMVB、MOV、WMV等,使用者可依各檔案格式的特性,選擇適合的檔案格式。
不同格式的視訊資料可以透過相關的視訊應用軟體來讀取、播放或是編輯,目前也有一些軟體可以提供不同檔案格式之間的資料轉換。
常見的視訊檔案格式
視訊壓縮
視訊的原理是利用視覺暫留,造成一連串影像連續播放的效果,因此影像播放的速度需要很快。
假設一秒鐘播放30張影像,一個全彩畫面的解析度是640×480,那麼每秒鐘需要640×480×3(RGB 三色)×30(張)= 27,000 KB 的儲存空間。
若是一分鐘的視訊影片,就要用掉 27,000 KB×60(秒)= 1,620,000 KB,也就是大約1,582 MB 的儲存空間。
視訊壓縮時,只挑選出一些關鍵畫面來壓縮,其他畫面則只儲存與關鍵畫面之間的影像差異資訊,以此方法來降低儲存資料量。
視訊資料量也像音訊或影像資料,允許壓縮過後的視訊在還原時可以容許某種程度的「失真」現象。
影片檔案大小計算
計算一個畫面解析度為1400×1050、全彩、每秒播放10張影像、片長共13秒的影片,其檔案大小計算公式為:
1400×1050×3(RGB三色)×10(張)×13(秒)=573,300,000 Bytes ≒ 559,863.28 KB ≒ 546.74 MB ≒ 0.53 GB
依照上述計算公式,得到該檔案大小約為0.53 GB