資料分類

分類主要是根據已知類別的資料來建立資料的分類模型，一般會將已知資料集分成訓練資料集 (Traing Data) 與測試資料集 (Testing Data) – 訓練資料集主要用來建立模型，再以測試資料檢驗訓練模型的好壞。因為是用已知類別的資料進行學習，故又稱為監督式學習 (Supervised Learning)。

我們提供的分類法包含：LDA (線性判別式分析, Linear Discriminant Analysis)、SVM (支持向量機, Support Vector Machine)、CART (決策樹, Classification and Regression Tree)、KNN (K-Nearest Neighbor)、ANN (類神經網路, Artificial Neural Network)。

LDA

線性判別式分析 (Linear Discriminant Analysis)，簡稱為 LDA，可用來分類與或者降維此處只介紹分類的部分，透過降維的方式，將資料類別 levels k，投影到最多 k-1維的子空間下，尋找類別內距離變異最小，類別間變異最大的維度，達成最佳的分類。

以下舉例:

假設有一圖分兩類，若投影到 Y 軸組內變異大組間變異小，若投影到X軸組內變異小組間變異大，相較於投影到Y軸X軸是更好的選擇，但這不一定是最佳結果，LDA就是選擇投影到最佳的維度使得組內變異小組間變異大。

SVM

SVM 是一種二元分類器：是在分類與迴歸分析中分析資料的學習演算法。

1. 找出一個超平面 (hyperplane)，將資料劃分成兩部分 A1 和 A2。

2. 找到 A1 和 A2 離此函數最遠的距離 Margin。

3. 利用 SVM 尋找所有函數中擁有最大 Margin 值的那條線作為分類函數。

KNN

KNN (K-Nearest Neighbor) 分類演算法為一種簡單且方便的演算法，主要依據鄰近的 k 個樣本中出現次數最多的類別來決定未知樣本的類別。

KNN 演算法步驟如下：

1. 選擇距離計算公式，計算待分類資料與訓練集中的每個樣本的距離；

2. 找出距離最近的 k 個樣本，作為未知物件的近鄰；

3. 將這 k 個樣本中，出現次數最多的類別，作為待分類資料的類別。

利用 KNN 演算法在判斷類別時，k 的取值範圍很重要，不同的值有可能帶來不同的結果。在我們的應用程式中，最佳 k 值計算方式為

1. 由資料中隨機抽取 100p% 資料當做訓練集，其他資料為測試集。

2. 令 k=1,2,..., [√m](m 為訓練集資料總數)，分別以 KNN 演算法對此訓練集進行分類，

再以此模型預測測試集資料，計算出誤判比例。最後求出有最小誤判比例之 k 值。

3. 重複步驟 1 與步驟 2 n 次，最佳 k 值則為此 n 個有最小誤判比例之 k 值的平均數。

ANN

類神經網路 (Artificial neural network, 也常被稱為人工神經網路)，顧名思義，可以把它想像成是一種模仿人類神經網路結構的演算法，把重點放在網路結構，神經元運算結果能夠彼此分享使得整體結構具有自我學習的能力。架構內主要分成輸入層、隱藏層及輸出層，ANN 可以同時用來預測分類問題以及連續數值問題，不過在機器學習中，通常會把 ANN 畫分在分類演算法下。

CART

CART (classification and regression tree) 是由 Brieman 於 1984 年所提出，

用來建立分類樹 (用於類別型變數的預測)、與迴歸樹 (用於連續型變數的預測)。

CART 決策樹包括 3 個步驟:

特徵選擇 → 生成決策樹 → 決策樹剪枝。

選擇分類效果最好的特徵，讓劃分後的每個節點盡量屬於同一個類別，並將結果以樹狀圖的方式呈現。

分類樹建構過程是從根節點開始

1. 依據訓練資料集中的每個變數，以及其可能的分割，將訓練集資料分成兩部分，並分別以 Entropy或 Gini index 來衡量資料的相似度。

2. 在所有可能的變數和其所有可能的分割中，選擇群內資料相似度最大者為最優變數與最優分割。依所選變數和最優分割，將訓練資料集分配到兩個子節點 (內部節點) 中。

3. 持續遞迴步驟 1 與步驟 2，直至達到停止條件。

常用的停止條件則包含：

1.節點中的樣本數小於預設值。

2. Entropy 或 Gini-Index 小於預設值。

3. 節點樣本中沒有更多的特徵。

迴歸樹的建構過程與分類數類似，迴歸樹是以平方誤差最小化準則來選取最優變數與最優分割。

Page updated

Google Sites

Report abuse

分類

資料分類

我們提供的分類法包含：LDA (線性判別式分析, Linear Discriminant Analysis)、SVM (支持向量機, Support Vector Machine)、CART (決策樹, Classification and Regression Tree)、KNN (K-Nearest Neighbor)、ANN (類神經網路, Artificial Neural Network)。

LDA

以下舉例:

假設有一圖分兩類，若投影到 Y 軸組內變異大組間變異小，若投影到X軸組內變異小組間變異大，相較於投影到Y軸X軸是更好的選擇，但這不一定是最佳結果，LDA就是選擇投影到最佳的維度使得組內變異小組間變異大。

SVM

SVM 是一種二元分類器：是在分類與迴歸分析中分析資料的學習演算法。

1. 找出一個超平面 (hyperplane)，將資料劃分成兩部分 A1 和 A2。

2. 找到 A1 和 A2 離此函數最遠的距離 Margin。

3. 利用 SVM 尋找所有函數中擁有最大 Margin 值的那條線作為分類函數。

KNN

KNN (K-Nearest Neighbor) 分類演算法為一種簡單且方便的演算法，主要依據鄰近的 k 個樣本中出現次數最多的類別來決定未知樣本的類別。

KNN 演算法步驟如下：

1. 選擇距離計算公式，計算待分類資料與訓練集中的每個樣本的距離；

2. 找出距離最近的 k 個樣本，作為未知物件的近鄰；

3. 將這 k 個樣本中，出現次數最多的類別，作為待分類資料的類別。

利用 KNN 演算法在判斷類別時，k 的取值範圍很重要，不同的值有可能帶來不同的結果。在我們的應用程式中，最佳 k 值計算方式為

1. 由資料中隨機抽取 100p% 資料當做訓練集，其他資料為測試集。

2. 令 k=1,2,..., [√m](m 為訓練集資料總數)，分別以 KNN 演算法對此訓練集進行分類，

再以此模型預測測試集資料，計算出誤判比例。最後求出有最小誤判比例之 k 值。

3. 重複步驟 1 與步驟 2 n 次，最佳 k 值則為此 n 個有最小誤判比例之 k 值的平均數。

ANN

CART

CART (classification and regression tree) 是由 Brieman 於 1984 年所提出，

用來建立分類樹 (用於類別型變數的預測)、與迴歸樹 (用於連續型變數的預測)。

CART 決策樹包括 3 個步驟:

特徵選擇 → 生成決策樹 → 決策樹剪枝。

選擇分類效果最好的特徵，讓劃分後的每個節點盡量屬於同一個類別，並將結果以樹狀圖的方式呈現。

分類樹建構過程是從根節點開始

1. 依據訓練資料集中的每個變數，以及其可能的分割，將訓練集資料分成兩部分，並分別以 Entropy或 Gini index 來衡量資料的相似度。

2. 在所有可能的變數和其所有可能的分割中，選擇群內資料相似度最大者為最優變數與最優分割。依所選變數和最優分割，將訓練資料集分配到兩個子節點 (內部節點) 中。

3. 持續遞迴步驟 1 與步驟 2，直至達到停止條件。

常用的停止條件則包含：

1.節點中的樣本數小於預設值。

2. Entropy 或 Gini-Index 小於預設值。

3. 節點樣本中沒有更多的特徵。

迴歸樹的建構過程與分類數類似，迴歸樹是以平方誤差最小化準則來選取最優變數與最優分割。

靜宜大學資科系