Clusteranalyse

Unter Clusteranalyse (Clustering-Algorithmus, gelegentlich auch: Ballungsanalyse) versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Anders ausgedrückt handelt es sich bei Clustering um die Gruppierung von Objekten, so dass die Mitglieder jeder Gruppe ähnlich zueinander sind und unähnlich von anderen Gruppen. 

Grundlagen

Ausgangslage:

Ausgangspunkt ist somit eine Menge O von Objekten, die einheitlich repräsentiert werden. zB als Punkte im Rn Raum (feature vectors). 

Wie bestimmt man die Ähnlichkeit von Objekten?

Üblicherweise werden Ähnlichkeiten zwischen Objekten über ihre Distanz zueinander approximiert. Je größer die Distanz, desto unähnlicher sind die Objekte. 

Ziel:

Ziel ist es bestimmte Gruppen (Klassen, Kluster), die Bestandteil der Ausgangemenge O sind, zu finden, sodass 

Unterschied zur Klassifikation

graphentheoretische Clusterverfahren

DBSCAN - dirchteverbundene Cluster

DBSCAN (Density-Based Spatial Clustering of Applications with Noise, etwa: Dichtebasierte räumliche Clusteranalyse mit Rauschen)  arbeitet dichtebasiert und ist in der Lage, mehrere Cluster zu erkennen. Rauschpunkte werden dabei ignoriert und separat zurückgeliefert. 

hierarchische Clusterverfahren

partitionierende Clusterverfahren

dd

k-means-Algorithmus

EM-Algorithmus

Spektral Clustering

ddd

Maximum Margin Clustering

ddd

Multiview Clustering

...

Self-Organizing Maps (SOMs)

ddd

Fuzzy Clustering

ddd

Literatur