Cluster-Analyse
Cluster-Analyse
Wenn wir unsere Daten analysieren, beschäftigen wir uns oft mit verschiedenen demografischen Gruppen und werden die Befragten nach Einkommen, Region, Alter und mehr segmentieren. Aber manchmal können diese Labels reduktiv sein. Denn wenn Sie wissen, dass viele männliche Teilnehmer haben, können Sie nicht sagen, welche Art von Werbekampagne sie sehen möchten. Ist Ihr Publikum in erster Linie Millenials? Fußballväter? Beide? Wie fassen Sie persönliche Merkmale in Begriffe zusammen, die für Marketingzwecke aufgeschlüsselt werden können?
Die Clusteranalyse ist ein Mittel, um die Gruppen zu ermitteln, die natürlich im Datenset Ihrer Umfrage vorkommen. Dazu wird analysiert, welche demografischen, verhaltensorientierten und/oder glaubwürdigsten Eigenschaften am ehesten korreliert sind.
Umfrage für Cluster-Analyse vorbereiten
Um eine Cluster-Analyse durchzuführen, müssen Sie die korrekten Daten in Ihrer Umfrage sammeln.
- Stellen Sie die richtigen Fragen:
- Demografie: Fragen Sie nach grundlegenden beschreibenden Informationen wie Alter, Einkommensklasse, Rasse oder Geschlecht.
- Verhalten: Fragen Sie, wie Kunden mit Ihrer Marke und Ihren Produkten interagieren, oder nach Verhaltensweisen, die sich auf ihr Kaufverhalten beziehen können. Sie können beispielsweise fragen, wie oft der Kunde einkauft.
- Operative Daten: Hierbei handelt es sich um Informationen wie die auf Ihrer Website aufgewendete Zeit oder die Beschäftigungsdauer eines Mitarbeiters in Ihrem Unternehmen.
Tipp: Interessieren Sie sich für die Nachverfolgung der auf einer Seite aufgewendeten Zeit? Dann könnten Sie an unserer Website-Feedback-Funktion interessiert sein. Wenden Sie sich an Ihren Vertriebsbeauftragten, wenn Sie mehr erfahren möchten.
- Einstellungen und Überzeugungen: Befragen Sie Ihre Teilnehmer zu ihren Grundwerten, ihren Einstellungen und Überzeugungen. Dies kann religiöse oder politische Überzeugungen umfassen, aber Sie können auch nach Überzeugungen fragen, die für die Arbeitsweise Ihres Unternehmens direkt relevant sind. Sie können sie beispielsweise bitten, zu bewerten, wie wichtig es ist, dass Support-Interaktionen persönlich erfolgen.
- Fragenformate: Formatieren Sie Fragen zu Verhaltensweisen und Überzeugungen als Skalen. Der Bereich auf einer Skala kann uns dabei helfen zu verstehen, welche Skalenwerte korreliert sind und somit ungefähr im selben Cluster liegen. Ja/Nein-Fragen und Fragen mit Einzelauswahl sind für die Clusteranalyse nicht so nützlich.
Beispiel: Wenn Sie fragen: „Was für ein Käufer sind Sie?“ und die Optionen „Prefer Shopping at malls“, „Prefer Shopping online“ und „Prefer Shopping at boutiques“ anbieten, möchte der Clustering-Algorithmus die Teilnehmer in drei Gruppen aufteilen, eine für jede Antwort. Wenn Sie diese stattdessen als eine Reihe von Fragen gestellt haben (z. B. „Einkaufen Sie gerne in den Malls?“) Mit den Antworten 1 bis 7 kann der Clustering-Algorithmus besser erkennen, was die verschiedenen Käufer voneinander trennt.Tipp: Multiple-Choice-Fragen sind die besten, um skalare Daten zu sammeln.
- Variablentypen: Wenn Sie für die Analyse in Stats iQ bereit sind, müssen Sie Ihre Variablen als Kategorien oder Zahlen formatieren. Datumsangaben sind nicht mit der Clusteranalyse kompatibel.
Cluster-Analyse durchführen
- Stellen Sie sicher, dass die Variablentypen Ihrer Fragen entweder auf numerisch oder kategorisch gesetzt sind.
- Wählen Sie links die Variablen aus, die Sie analysieren möchten.
- Klicken Sie auf Cluster.
Cluster-Analyseergebnisse
Stärke- und Statiktabelle
Die Tabelle listet die Stichprobengröße (wie viele Teilnehmer zu dieser Analyse beigetragen haben), die Anzahl der Cluster und die Silhouettenbewertung auf. Die Silhouettennote wird im Satz oben in Phrasen wie „sehr stark“ interpretiert.
Die Clusteranalyse versucht, die entsprechende Anzahl von Clustern automatisch auszuwählen, indem sie die Engpässe des Clusters bei verschiedenen Zahlen bewertet, aber höhere Clusterzahlen benachteiligt, damit sie schwieriger arbeiten können. Die richtige Zahl zu wählen, ist mehr Kunst als Wissenschaft, und Sie sollten mit verschiedenen Zahlen experimentieren, um zu sehen, was am besten funktioniert.
In einigen Fällen kann der Algorithmus eine bestimmte Anzahl von Clustern nicht erzeugen und fällt auf eine kleinere Anzahl zurück.
Cluster-Übersicht
Ihre Cluster werden im Abschnitt Cluster-Übersicht aufgeführt. Sie werden basierend auf den Fragen beschrieben, die Mitglieder des Clusters am ähnlichsten beantwortet haben.
Beispiel: Cluster 1 in diesem Screenshot enthält Personen, die:
sind
- Verheiratet
- Master-Abschluss haben
- Nur wenige Personen (unmittelbare Familienmitglieder, Kinder) in ihrem Zuhause haben
- Jung
Klicken Sie auf den Namen eines Clusters, um ihn umzubenennen.
Tipp: Die Umbenennung Ihrer Cluster ist wichtig, damit Ihre Ergebnisse in einem realen oder Marketingkontext sinnvoller sind.
Cluster-Ergebnistabelle
In der Tabelle Cluster-Ergebnisse werden die Hauptvariablen des Clusters hervorgehoben. Für kategorische Variablen werden die gebräuchlichste Option und der Prozentsatz der Befragten im Cluster, die diese Antwort bereitgestellt haben, angegeben. Bei Zahlenvariablen sehen Sie eine durchschnittliche Antwort.
Beispiel: In diesem Screenshot ist der Bildungsgrad kategorisch, sodass wir einen Breakout zu den Prozentsätzen der Befragten mit Doktorabschluss vs. sehen. Weniger als die Ausbildung eines Gymnasiums vs. Masterabschluss.
Das Alter ist hier numerisch, sodass das Durchschnittsalter für jedes Cluster angezeigt wird (32,4 für Cluster 1, 50,3 für Cluster 2).
Weitere Informationen zum Anlegen von Variablen aus Clustern finden Sie im Abschnitt Variable aus Clustern anlegen.
Bedeutung der Variablen
Die Tabelle Wichtigkeit der Variablen zeigt die Stärke der Beziehung zwischen jeder Variable und den Clustern an. Eine stärkere Beziehung zeigt an, dass die Variable beim Anlegen der Cluster wichtiger war.
Um dies zu berechnen, führen wir Regressionen für jede Variable aus. Beispielsweise würden wir das Alter für das Cluster-Ergebnis, die Arbeitsstunden für das Cluster-Ergebnis usw. ausführen.
Die R-Quadratwerte, die sich aus diesen Regressionen ergeben, werden dann so skaliert, dass das höchste R-Quadrat auf 1 gesetzt wird.
Neue Variablen aus Ergebnissen anlegen
Sobald Sie unter Ihren Teilnehmern Cluster festgelegt haben, können Sie diese Kategorien in neue Variablen umwandeln, die Sie in Stats iQ analysieren können.
Stellen Sie zunächst sicher, dass Sie Ihre Cluster umbenennen, indem Sie in ihre Namen klicken.
Wenn Ihre Cluster Namen haben, die für Sie sinnvoll sind, klicken Sie unter der Tabelle Clusterergebnisse auf Variable aus Clustern erstellen. Dadurch wird Ihrer Liste der Variablen auf der linken Seite automatisch eine kategorische Variable hinzugefügt.
Technische Hinweise
Die Cluster-Analyse in Stats iQ verwendet die Latent-Class-Analyse (LCA), um vom Benutzer bereitgestellte Daten in seine zugrunde liegenden Cluster zu partitionieren. Im Gegensatz zu anderen Clustering-Algorithmen ermöglicht der Stats iQ LCA-Algorithmus das Clustering gemischter Datentypen (numerisch, kategorisch und binär).
Analyse der gemischten Latent-Klasse
Die Latent-Class-Analyse (LCA) ist ein wahrscheinlichkeitsbasiertes Clustering-Modell. Jeder Cluster wird durch eine Sammlung von Wahrscheinlichkeitsdichtefunktionen definiert, die basierend auf dem Wert der Variablen eines Datenpunkts die Wahrscheinlichkeit zurückgibt, dass ein bestimmter Datenpunkt zu diesem Cluster gehört.
Beispiel: Ihre Familie lässt sich in ein paar Generationen aufteilen, wie die aktuellen Kinder, die Eltern und die Großeltern. Ein LCA-Modell würde diese 3 Cluster darstellen, wobei jedes Cluster durch eine einzelne Wahrscheinlichkeitsfunktion basierend auf dem Alter definiert wird:
Cluster | Wahrscheinlichkeitsfunktion Mittelwert | Wahrscheinlichkeitsfunktion Standardabweichung |
Aktuell | 25 | 7 |
Eltern | 48 | 5 |
Großeltern | 75 | 3 |
Um jemandem, der 30 ist, ein Cluster zuzuweisen, verwenden Sie diese Wahrscheinlichkeitsdichtefunktionen, um zu berechnen, dass eine Wahrscheinlichkeit von 44 % besteht, dass sie sich in Aktuell befinden, <1 % Wahrscheinlichkeit, dass sie zu Eltern gehören, und <1 % Wahrscheinlichkeit, dass sie sich in Großeltern befinden. Diese Person wird dem wahrscheinlichsten Cluster Aktuell zugeordnet.
Ein LCA-Modell kann auf mehrere Variablen angewendet werden, indem die Wahrscheinlichkeit multipliziert wird, dass ein Datenpunkt basierend auf jeder Variablen zu einem Cluster gehört. Das Modell kann auf verschiedene Variablentypen angewendet werden, indem verschiedene Wahrscheinlichkeitsdichtefunktionen verwendet werden:
Typ | Transformation | Wahrscheinlichkeitsdichte |
Kategorisch | Dummy verschlüsselt (N-1) | Bernoulli |
Binär | Bernoulli | |
Numerisch | Normal |
Anzahl Klassen ermitteln
Um die optimale Anzahl von Klassen zu ermitteln, verwendet Stats iQ einen BIC-Score.
Modellanpassung bewerten
Um das Ziel „Güte“ eines Modells zu bewerten, verwendet Stats iQ eine wahrscheinlichkeitsbasierte Silhouettenbewertung. Ein Silhouetten-Score ist ein Maß dafür, wie gut sich jeder Datenpunkt in seinem Cluster befindet. Ein Silhouetten-Score misst die Ähnlichkeit eines bestimmten Punkts mit allen anderen Punkten in seinem Cluster und vergleicht diese mit der Ähnlichkeit mit allen Punkten im nächsten benachbarten Cluster. Um die Ähnlichkeit zwischen zwei Datenpunkten zu messen, berechnet Stats iQ die Gower Distanz (eine Entfernungsmetrik, die für binäre, kategorische und numerische Daten verwendet wird) zwischen den Punkten.