Search this site
Embedded Files
Skip to main content
Skip to navigation
首頁
組員介紹
研究專題
Data Mining
分類
分群
平台介面教學
LDA
SVM
KNN
ANN
CART
K-Means
Hierchical Cluster
PAM
參考文獻
結果
R shiny app
首頁
組員介紹
研究專題
Data Mining
分類
分群
平台介面教學
LDA
SVM
KNN
ANN
CART
K-Means
Hierchical Cluster
PAM
參考文獻
結果
R shiny app
More
首頁
組員介紹
研究專題
Data Mining
分類
分群
平台介面教學
LDA
SVM
KNN
ANN
CART
K-Means
Hierchical Cluster
PAM
參考文獻
結果
R shiny app
分類
資料分類
分類主要是根據已知類別的資料來建立資料的分類模型,一般會將已知資料集分成訓練資料集 (Traing Data) 與測試資料集 (Testing Data) – 訓練資料集主要用來建立模型,再以測試資料檢驗訓練模型的好壞。因為是用已知類別的資料進行學習,故又稱為監督式學習 (Supervised Learning)。
我們提供的分類法包含:LDA (線性判別式分析, Linear Discriminant Analysis)、SVM (支持向量機, Support Vector Machine)、CART (決策樹, Classification and Regression Tree)、KNN (K-Nearest Neighbor)、ANN (類神經網路, Artificial Neural Network)。
LDA
線性判別式分析 (Linear Discriminant Analysis),簡稱為 LDA,可用來分類與或者降維此處只介紹分類的部分,透過降維的方式,將資料類別 levels k,投影到最多 k-1維 的子空間下,尋找類別內距離變異最小,類別間變異最大的維度,達成最佳的分類。
以下舉例:
假設有一圖分兩類,若投影到 Y 軸組內變異大組間變異小,若投影到X軸組內變異小組間變異大,相較於投影到Y軸X軸是更好的選擇,但這不一定是最佳結果,LDA就是選擇投影到最佳的維度使得組內變異小組間變異大。
SVM
SVM 是一種二元分類器:是在分類與迴歸分析中分析資料的學習演算法。
1. 找出一個超平面 (hyperplane),將資料劃分成兩部分 A1 和 A2。
2. 找到 A1 和 A2 離此函數最遠的距離 Margin。
3. 利用 SVM 尋找所有函數中擁有最大 Margin 值的那條線作為分類函數。
KNN
KNN (K-Nearest Neighbor) 分類演算法為一種簡單且方便的演算法,主要依據鄰近的 k 個樣本中出現次數最多的類別來決定未知樣本的類別。
KNN 演算法步驟如下:
1. 選擇距離計算公式,計算待分類資料與訓練集中的每個樣本的距離;
2. 找出距離最近的 k 個樣本,作為未知物件的近鄰;
3. 將這 k 個樣本中,出現次數最多的類別,作為待分類資料的類別。
利用 KNN 演算法在判斷類別時,k 的取值範圍很重要,不同的值有可能帶來不同的結果。在我們的應用程式中,最佳 k 值計算方式為
1. 由資料中隨機抽取 100p% 資料當做訓練集,其他資料為測試集。
2. 令 k=1,2,..., [√m](m 為訓練集資料總數),分別以 KNN 演算法對此訓練集進行分類,
再以此模型預測測試集資料,計算出誤判比例。最後求出有最小誤判比例之 k 值。
3. 重複步驟 1 與步驟 2 n 次,最佳 k 值則為此 n 個有最小誤判比例之 k 值的平均數。
ANN
類神經網路 (Artificial neural network, 也常被稱為人工神經網路),顧名思義,可以把它想像成是一種模仿 人類神經網路結構的演算法,把重點放在網路結構,神經元運算結果能夠彼此分享使得整體結構具有自我學習的能力。架構內主要分成輸入層、隱藏層及輸出層,ANN 可以同時用來預測分類問題以及連續數值問題,不過在機器學習中,通常會把 ANN 畫分在分類演算法下。
CART
CART (classification and regression tree) 是由 Brieman 於 1984 年所提出,
用來建立分類樹 (用於類別型變數的預測)、與迴歸樹 (用於連續型變數的預測)。
CART 決策樹包括 3 個步驟:
特徵選擇 → 生成決策樹 → 決策樹剪枝。
選擇分類效果最好的特徵,讓劃分後的每個節點盡量屬於同一個類別,並將結果以樹狀圖的方式呈現。
分類樹建構過程是從根節點開始
1. 依據訓練資料集中的每個變數,以及其可能的分割,將訓練集資料分成兩部分,並分別以 Entropy或 Gini index 來衡量資料的相似度。
2. 在所有可能的變數和其所有可能的分割中,選擇群內資料相似度最大者為最優變數與最優分割。依所選變數和最優分割,將訓練資料集分配到兩個子節點 (內部節點) 中。
3. 持續遞迴步驟 1 與步驟 2,直至達到停止條件。
常用的停止條件則包含:
1.節點中的樣本數小於預設值。
2. Entropy 或 Gini-Index 小於預設值。
3. 節點樣本中沒有更多的特徵。
迴歸樹的建構過程與分類數類似,迴歸樹是以平方誤差最小化準則來選取最優變數與最優分割。
Google Sites
Report abuse
Page details
Page updated
Google Sites
Report abuse