資料探勘 (Data Mining) 是指從大量的數據中建立模型,從中找出隱藏的特殊關聯性及特徵。資料探勘是一門跨領域的學科,由很多其他領域的東西相互交流組合,包含了機器學習 (machine learning)、人工智能 (Artificial Intelligence)、模式辨別 (Pattern cognition)、統計學 (statistics) 及資料庫系統 (database systems) 等不同範疇。
★ 資料分類 (Classification)
分類主要是根據已知類別的資料來建立資料的分類模型,一般會將已知資料集分成訓練資料集 (Traing Data) 與測試資料集 (Testing Data) – 訓練資料集主要用來建立模型,再以測試資料檢驗訓練模型的好壞。因為是用已知類別的資料進行學習,故又稱為監督式學習 (Supervised Learning)。我們提供的分類法包含:
1. LDA (線性判別式分析, Linear Discriminant Analysis)
2. SVM (支持向量機, Support Vector Machine)
3. CART (決策樹, Classification and Regression Tree)
4. KNN (K-Nearest Neighbor)
5. ANN (類神經網路, Artificial Neural Network)
★ 資料分群 (Clusering)
分群法是相對於分類法的另外一種資料探勘技術。分群法也是用來將資料做區分的,差別在於原本的資料都是未經過類別區分的。通常是用在分組使用時,針對沒有預先定義好類別的資料分組,因為是未知類別的資料集進行區分所以也被稱為非監督式學習 (Unsupervised Learning)。 我們提供的分類法包含:
1. K-Means (K-平均演算法)
2. Hierarchical Clustering (階層式分群法)
3. PAM (分割環繞物件法, Partitioning Around Medoids)