Unter Clusteranalyse (Clustering-Algorithmus, gelegentlich auch: Ballungsanalyse) versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Anders ausgedrückt handelt es sich bei Clustering um die Gruppierung von Objekten, so dass die Mitglieder jeder Gruppe ähnlich zueinander sind und unähnlich von anderen Gruppen.
Ausgangslage:
Ausgangspunkt ist somit eine Menge O von Objekten, die einheitlich repräsentiert werden. zB als Punkte im Rn Raum (feature vectors).
Wie bestimmt man die Ähnlichkeit von Objekten?
Üblicherweise werden Ähnlichkeiten zwischen Objekten über ihre Distanz zueinander approximiert. Je größer die Distanz, desto unähnlicher sind die Objekte.
Ziel:
Ziel ist es bestimmte Gruppen (Klassen, Kluster), die Bestandteil der Ausgangemenge O sind, zu finden, sodass
zwischen Objekten innerhalb eines Clusters große Ähnlichkeit besteht (große intra-cluster Ähnlichkeit)
die Ähnlichkeit zu Objekten außerhalb des Clusters möglichst gering ist (geringe inter-cluster Ähnlichkeit)
Unterschied zur Klassifikation
DBSCAN (Density-Based Spatial Clustering of Applications with Noise, etwa: Dichtebasierte räumliche Clusteranalyse mit Rauschen) arbeitet dichtebasiert und ist in der Lage, mehrere Cluster zu erkennen. Rauschpunkte werden dabei ignoriert und separat zurückgeliefert.
Allgemeines
Primärliteratur:
Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu (1996-). "A density-based algorithm for discovering clusters in large spatial databases with noise". In Evangelos Simoudis, Jiawei Han, Usama M. Fayyad. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231. ISBN 1-57735-004-9.
Allgemeines
Wikipedia: deutsch |
dd
Allgemeines
Wikipedia: deutsch
Umsetzung
Umsetzung in Excel:
EM-Algorithmus [Wikipedia]
ddd
ddd
...
ddd
ddd
Backhaus, Klaus - Multivariante Analysemethoden (Eine anwendungsorientierte Einführung) [Amazon | GoogleBooks | Springer]
Backhaus, klaus - Fortgeschrittene Multivariante Analysemethoden (Eine anwendungsorientierte Einführung) [Amazon | GoogleBooks | Springer]
Tan, Pan-Ning - Introduction to Data Mining (2004)