Was ist eine Clusteranalyse?
Mit einer Clusteranalyse sollen untersuchungsrelevante Objekte in natürliche Gruppen – die sogenannten Cluster – eingeteilt werden. Dadurch können sich Unternehmen einen besseren Überblick über sehr große Datensätze verschaffen. Bei den Untersuchungsobjekten kann es sich um Menschen, Länder, Gegenstände o. Ä. handeln, die anhand bestimmter Merkmale gruppiert werden.
Bei der Clusteranalyse handelt es sich um eine Segmentierung und nicht um eine Sortierung. Das bedeutet, dass für die Gruppierung keine Kategorien vorgegeben sind, sondern diese erst anhand der Muster innerhalb der Daten gebildet werden. Daher gehört zur Clusteranalyse dazu, nach der Einteilung die Eigenschaften der jeweiligen Gruppen zu beschreiben.
Anwendungsbereiche der Clusteranalyse
Die Clusteranalyse wird insbesondere im Marketing eingesetzt. Mithilfe komplexer Algorithmen werden dabei die Daten der Verbraucher analysiert und gruppiert. Darauf aufbauend können Unternehmen ihre Werbestrategien besser an die jeweiligen Zielgruppen anpassen und somit ggf. das Kaufverhalten stärker beeinflussen.
Clusteranalysen finden jedoch in nahezu allen Lebensbereichen Anwendung. Beispielsweise eignen sie sich im Bereich der Medizin und Psychologie: Werden die Verhaltensweisen oder Krankheitsbilder von Patienten in bestimmte Cluster sortiert, kann ein gezielter Therapieansatz entwickelt werden. Auch die Gesichtserkennung auf Fotos basiert auf den Algorithmen des Clusterings.
Voraussetzungen für eine Clusteranalyse
Bei der Einteilung in Cluster gilt: Ein gebildetes Cluster soll in sich maximal homogen sein, sich gleichzeitig aber so stark wie möglich von den anderen Clustern unterscheiden. Um das zu gewährleisten, sollten folgende Voraussetzungen bzgl. der Datengrundlage berücksichtigt werden:
- Fehlende Werte im Datensatz können die Analyse verfälschen. Daher müssen diese immer möglichst aktuell sein.
- Je nach Fragestellung bedarf es einer umfangreichen Stichprobe für die Clusteranalyse, damit ein aussagekräftiges Ergebnis entstehen kann.
- Generell gibt es keine Beschränkungen bzgl. der Skalenniveaus, d. h., die Algorithmen können sowohl diskrete (endliche, abzählbare) als auch stetige (unendliche, beliebig erweiterbare) Datensätze verarbeiten. Je nach gewählter Software ist aber ggf. eine Vereinheitlichung der Skalenniveaus aller Variablen notwendig.
- Falls sich die zu untersuchenden Größen stark in ihren Wertebereichen unterscheiden, kann eine vorherige z-Transformation der Variablen zur besseren Interpretation der Ergebnisse führen. Dabei handelt es sich um eine Standardisierung, die verschiedene Variablen auf einen gleichen Maßstab setzt.
- Genauso hilfreich kann es sein, die Datensätze vorab auf etwaige Extremwerte zu überprüfen. So lässt sich ein verzerrtes Ergebnis durch sogenannte Ausreißer verhindern.
- Zwischen einzelnen Variablen sollte keine starke Korrelation bestehen, da das Ergebnis hierdurch ebenfalls verzerrt werden könnte.
Ablauf der Clusteranalyse
Sind alle Voraussetzungen hinsichtlich des Datensatzes erfüllt, müssen innerhalb der Statistiksoftware einige Parameter für das Clustering festgelegt werden.
Notwendige Parameter festlegen
Vor Durchführen der Clusteranalyse sind je nach Fragestellung folgende Entscheidungen zu treffen:
Proximitätsmaß: Erfolgt die Kategorisierung der Objekte hinsichtlich des Merkmals “Distanz“ oder “Ähnlichkeit“? Ausschlaggebend ist hier das Skalenniveau der Variablen. Übliche Distanzmaße sind:
- die euklidische Distanz für metrische Variablen
- der sogenannte M-Koeffizient bei dichotomen Werten
Übliche Ähnlichkeitsmaße sind:
- Q-Korrelationskoeffizienten bei stetigen Variablen
- Tanimoto-Index bei kategoriellen Merkmalen
Cluster-Algorithmus: Es gibt verschiedene Formen der Clusteranalyse. Diese werden im nächsten Abschnitt näher erläutert. Welche Methode sich am besten eignet, hängt von der Fragestellung und dem gewünschten Ergebnis ab.
Anzahl der Cluster: Es kann hilfreich sein, sich bereits vorab zu überlegen, wie viele Cluster zu erwarten sind. Statistiksoftwares unterstützen hier vor allem mit der Erstellung von Dendrogrammen und ähnlichen Darstellungen. Dies erleichtert, die Ergebnisse der Clusteranalyse zu interpretieren.
Ergebnisse interpretieren
Die Ergebnisse einer Clusteranalyse werden häufig in einem Streudiagramm veranschaulicht. Zur genaueren Beschreibung der Cluster werden außerdem deskriptive Daten ausgegeben, z. B. die Mittelwerte eines jeden Clusters. Diese können wiederum mithilfe einer Varianzanalyse (ANOVA) auf signifikante Unterschiede geprüft werden.
Erfahren Sie mehr über Qualtrics
Demo AnfordernVerschiedene Methoden der Clusteranalyse
Grundsätzlich wird die Clusteranalyse in hierarchische und partitionierende Verfahren unterteilt. Diese können wiederum auf unterschiedlichen Algorithmen basieren, weshalb das Gebiet der Clusteranalysen sehr umfangreich ist. Für ein eindeutiges Ergebnis einer Clusteranalyse bietet es sich an, hierarchische und partitionierende Verfahren zu kombinieren. Die verschiedenen Methoden inklusive Beispiele werden in den folgenden Abschnitten erläutert.
Hierarchische Clusteranalyse
Hierarchische Clusteranalysen arbeiten entweder mit agglomerativen oder mit divisiven Algorithmen:
- Divisive Verfahren – auch Top-down-Verfahren genannt – führen zu einer Verfeinerung der Struktur, sprich, die bereits gebildeten Cluster werden in immer kleinere Cluster aufgeteilt.
- Agglomerative Verfahren oder auch Bottom-up-Verfahren vergröbern die Struktur, d. h., kleine Cluster werden zu immer größeren zusammengefasst.
In der Praxis überwiegen die agglomerativen Verfahren. Dabei besitzen die zu untersuchenden Objekte untereinander bereits eine sehr große Ähnlichkeit. Der angewandte Algorithmus geht folgendermaßen vor:
- Jede Variable wird als separates Cluster abgebildet.
- Diese werden in einer hierarchischen Abfolge sortiert.
- Die zwei ähnlichsten Cluster werden sukzessive zu einem neuen Cluster zusammengefasst, bis sich alle Objekte in einer Kategorie befinden.
Mit dem agglomerativen Verfahren lassen sich Cluster auf zwei verschiedene Arten bilden:
- Single-Linkage-Verfahren: Die Distanz zwischen zwei Elementen soll minimal sein.
- Complete-Linkage-Verfahren: Die Distanz zwischen zwei Elementen ist maximal.
Um Ausreißer zu verhindern, ist es sinnvoll, zu Beginn der Clusteranalyse das Single-Linkage-Verfahren anzuwenden, bevor die Complete-Linkage-Methode zum Einsatz kommt.
Partitionierende Clusteranalyse
Bei der partitionierenden Clusteranalyse sind die Datensätze bereits klassifiziert. Durch Umgruppierungen sollen diese Klassifizierungen verbessert werden.
Die partitionierende Clusteranalyse arbeitet mit zwei verschiedenen Algorithmen:
- K-Means-Algorithmus
- Two-Stage-Algorithmus
K-Means-Clusteranalyse
Die bekannteste Clusteranalyse basiert auf dem K-Means-Algorithmus, der diese Arbeitsschritte umfasst:
- Die Anzahl der zu bildenden Cluster ist vorgegeben. Anhand dessen wird eine zufällige Kategorisierung vorgenommen.
- Für jedes Cluster wird das Clusterzentrum bestimmt. Dieses besteht aus den Mittelwerten der Variablen innerhalb einer Klasse.
- Jedes Untersuchungsobjekt wird demjenigen Cluster zugeordnet, dessen Clusterzentrum ihm am nächsten liegt. Mathematisch gesprochen muss dabei die geringste quadrierte euklidische Distanz vorliegen.
- Anschließend kommt es so lange zu Umgruppierungen, bis der Algorithmus keine bessere Sortierung mehr findet.
Häufige Kritikpunkte für die Clusteranalyse mit dem K-Means-Algorithmus sind:
- die vorherige Vorgabe einer Clusteranzahl
- die mangelnde Eindeutigkeit des Ergebnisses
Two-Stage-Clusteranalyse
Beim Two Stage Clustering handelt es sich daher um eine Weiterentwicklung der K-Means-Methode. Dabei werden mithilfe eines hierarchischen Verfahrens zunächst die Anzahl der Cluster und eine Ausgangsklassifikation bestimmt. Ein beliebtes hierarchisches Verfahren zu Beginn jeder Clusteranalyse ist beispielsweise das Ward-Verfahren. Im zweiten Schritt wird das Clustering mit einem partitionierenden Verfahren verbessert, sodass das Ergebnis aussagekräftiger wird.
Clusteranalyse: Beispiele für die Anwendung
Da bei der hierarchischen Clusteranalyse anhand ausgewählter Merkmale versucht wird, homogene Gruppen zu identifizieren, ist sie beliebtes Mittel in der Marktforschung. So können etwa Fernsehzuschauer geclustert werden, um Marktsegmente zu identifizieren und den besten Zeitpunkt für zielgruppenspezifische Werbung herauszufiltern. Ein Praxisbeispiel für eine Clusteranalyse eines Autoherstellers ist in der folgenden Tabelle aufgeführt:
Ziel des Unternehmens | Marketingmaßnahmen effizienter gestalten und potenzielle Käufergruppen gezielter ansprechen |
---|---|
Fragestellung | Gibt es bestimmte Typen von Autofahrern? Wie lassen sich diese beschreiben? |
Charakterisierungskriterien auf Basis einer Zielgruppenumfrage | Der Befragte …
|
Clusteranalyse | Zweistufig:
|
Ergebnis der Clusteranalyse | Drei Fahrertypen:
|
Weiterfilhrende Analysen | Die Übrig gebliebenen Cluster (Fahrertypen) können nun nach ihren deskriptiven Merkmalen ausgewertet werden, z. B. nach Durchschnittsalter und Geschlecht. So können letztlich gezielte Werbespots fur die jeweiligen Persönlichkeiten und Altersklassen entwickelt werden. |
Demo Clusteranalyse erstellen