分群

資料分群

分群法 (Clusering) 是相對於分類法的另外一種資料探勘技術。分群法也是用來將資料做區分的，差別在於原本的資料都是未經過類別區分的。通常是用在分組使用時，針對沒有預先定義好類別的資料分組，因為是未知類別的資料集進行區分所以也被稱為非監督式學習 (Unsupervised Learning)。我們提供的分類法包含：K-Means (K-平均演算法)、Hierarchical Clustering (階層式分群法)、PAM (分割環繞物件法, Partitioning Around Medoids)。

Hierarchical Cluster

Hierarchical Cluster (階層式分群法)透過一種階層架構的方式，將資料層層反覆地進行分裂或聚合，以產生最後的樹狀結構，群數 (number of clusters)可由大變小，或是由小變大，透過群聚反覆的分裂和合併後，在選取最佳的群聚數。

常見的方式有兩種：1

1.聚合法:資料會由樹狀結構的底部開始，將資料或群聚逐次合併，直到只剩下一個集群。

分裂法:資料會由樹狀結構的頂部開始逐次分裂。

PAM

K-Medoids(物件集群法)是用聚類中某個觀測值作為聚類的中心，而不是使用均值作為聚類的中心(在K-means中使用)，較不易受離群值所影響，是 K-Means更強大的版本。

K-Medoids 最常用的演算法是 PAM (分割環繞物件法, Partitioning Around Medoids)

K-Means

K-MEANS 分割式分群法 (K-Means Clustering) 之中，最基本的方法，K-MEANS 演算法源於訊號處理中的一種向量量化方法，現在則更多地作為一種聚類分析方法流行於資料探勘領域。K-Means Clustering 的目的是：把N 個點劃分到 k 聚類中，使得每個點都屬於離他最近的均值對應的聚類，以之作為聚類的標準。

Page updated

Google Sites

Report abuse