Analisi cluster
Informazioni sull’analisi cluster
Quando analizziamo i nostri dati, ci occupiamo spesso di diversi gruppi demografici e segmenteremo gli intervistati per reddito, regione, età e altro ancora. Ma a volte queste etichette possono essere riduttive – dopo tutto, sapere che hai molti intervistati maschi non ti dice che tipo di campagna pubblicitaria vorrebbero vedere. Il tuo pubblico è principalmente millenario? Papà da calcio? Entrambi? Come si mettono le caratteristiche personali in termini scomponibili a scopo di marketing?
L’analisi cluster è un mezzo per rilevare i gruppi che si verificano naturalmente nell’insieme di dati del sondaggio. Questo viene fatto analizzando quali qualità demografiche, comportamentali e/o basate sulle credenze sono le più altamente correlate.
Preparazione di un sondaggio per l’analisi cluster
Per eseguire un’analisi cluster, è necessario raccogliere i dati corretti nel sondaggio.
- Poni le domande giuste:
- Demografia: Chiedi informazioni descrittive di base, come età, fascia di reddito, razza o genere.
- Comportamento: Chiedi in che modo i clienti interagiscono con il tuo brand e con i tuoi prodotti, o sui comportamenti che possono essere correlati al loro comportamento di acquisto. Ad esempio, è possibile chiedere con quale frequenza il cliente va a fare acquisti.
- Dati operativi: si tratta di informazioni quali il tempo impiegato nel sito Web o la permanenza in carica di un dipendente nell’azienda.
Qtip: sei interessato a monitorare il tempo trascorso su una pagina? A quel punto potresti essere interessato a utilizzare la funzione Website Feedback. Se vuoi saperne di più contatta il tuo Account Executive.
- Atteggiamenti e credenze: Indaga i tuoi intervistati sui loro valori fondamentali, i loro atteggiamenti e le loro convinzioni. Ciò può includere convinzioni religiose o politiche, ma è anche possibile chiedere informazioni sulle convinzioni direttamente rilevanti per il funzionamento della propria azienda. Ad esempio, è possibile chiedere loro di valutare quanto sia importante che le interazioni di supporto siano faccia a faccia.
- Formati delle domande: Formatta le domande sui comportamenti e le convinzioni come scale. L’intervallo su una scala può aiutarci a capire quali punti di scala sono correlati e quindi approssimativamente nello stesso cluster; le domande Sì/No e quelle a selezione singola non sono così utili per l’analisi dei cluster.
Esempio: se ti chiedi “Che tipo di acquirente sei?” e offri le opzioni “Preferisci lo shopping ai centri commerciali”, “Preferisci lo shopping online” e “Preferisci lo shopping alle boutique”, l’algoritmo di clustering vorrà dividere gli intervistati in tre gruppi, uno per ogni risposta. Se invece ti sei posto come una serie di domande (es. “Ti piace fare acquisti ai centri commerciali?”) con le risposte da 1 a 7, l’algoritmo di clustering farà un lavoro migliore per capire davvero cosa separa i diversi acquirenti l’uno dall’altro.Qtip: le domande a scelta multipla sono le migliori per raccogliere dati scalari.
- Tipi di variabile: Quando sei pronto per l’analisi in Stats iQ, assicurati di formattare le tue variabili come categorie o numeri. Le date sono incompatibili con l’analisi cluster.
Esecuzione dell’analisi cluster
- Assicurarsi che i tipi di variabile delle domande siano impostati su numero o su valori categorici.
- Selezionare a sinistra le variabili da analizzare.
- Fare clic su Cluster.
Risultati analisi cluster
Tabella di forza e statica
La tabella elencherà le dimensioni del campione (il numero di intervistati che hanno contribuito ai dati di questa analisi), il numero di cluster e il punteggio della silhouette. Il punteggio della silhouette è interpretato in frasi come “molto forte” nella frase in alto.
L’analisi cluster tenta di scegliere automaticamente il numero appropriato di cluster valutando la rigidità del clustering a vari numeri, ma penalizzando un maggior numero di cluster per essere più difficili da utilizzare. Scegliere il numero giusto è più arte che scienza, e bisognerebbe sperimentare numeri diversi per vedere cosa funziona meglio.
In alcuni casi, l’algoritmo non sarà in grado di produrre un certo numero di cluster e scenderà a un numero minore.
Riepilogo cluster
I cluster verranno elencati nella sezione Riepilogo cluster. Verranno descritti in base alle domande a cui i membri del cluster hanno risposto in modo più simile.
Esempio: il cluster 1 in questo screenshot contiene persone che sono:
- Coniugato/a
- Avere lauree magistrali
- Ha poche persone (familiari diretti, bambini) che vivono nella loro casa
- Giovane
Fare clic sul nome di un cluster per rinominarlo.
Qtip: rinominare i tuoi cluster è importante per rendere i risultati più sensati in un contesto reale o di marketing.
Tabella risultati cluster
Nella tabella Risultati Cluster verranno evidenziate le principali variabili del cluster. Per le variabili categoriali, verranno fornite l’opzione più comune e la percentuale di intervistati nel cluster che hanno fornito questa risposta. Per le variabili numeriche, verrà visualizzata una risposta media.
Esempio: In questo screenshot, il livello di istruzione è categorico, quindi vediamo una svolta sulle percentuali di intervistati con lauree di dottorato vs. Meno dell’istruzione di un liceo vs. Lauree magistrali.
L’età è numerica qui, quindi vediamo l’età media per ogni cluster (32,4 per il cluster 1, 50,3 per il cluster 2).
Per ulteriori informazioni sulla creazione di variabili dai cluster, consultare la sezione Crea variabile da cluster.
Importanza di variabile
La tabella Importanza variabile mostra l’intensità della relazione tra ogni variabile e i cluster. Una relazione più forte indica che la variabile era più importante nella creazione dei cluster.
Per calcolare questo, eseguiamo delle regressioni per ogni variabile. Ad esempio, l’età viene confrontata con l’esito del cluster, con le ore lavorate rispetto a quelle del cluster e così via.
I valori R quadro risultanti da tali regressioni vengono quindi ridimensionati in modo che l’R quadro più alto sia impostato su 1.
Creazione di nuove variabili dai risultati
Una volta determinati i cluster tra i tuoi intervistati, puoi trasformare queste categorie in nuove variabili che puoi analizzare in Stats iQ!
Per prima cosa, assicurarsi di rinominare i cluster facendo clic sui relativi nomi.
Una volta che i cluster hanno nomi opportuni per l’utente, fare clic su Crea variabile da cluster nella tabella Risultati cluster. In questo modo si aggiunge automaticamente una variabile categoriale all’elenco di variabili a sinistra.
Note tecniche
L’analisi cluster in Stats iQ utilizza Latent Class Analysis (LCA) per partizionare i dati forniti dall’utente nei suoi cluster sottostanti. A differenza di altri algoritmi di clustering, l’algoritmo Stats iQ LCA consente di raggruppare tipi di dati misti (numerici, categorici e binari).
Analisi classi latenti di tipo misto
LCA (Latent Class Analysis) è un modello di clustering basato sulla probabilità. Ogni cluster è definito da una raccolta di funzioni di densità di probabilità che, in base al valore delle variabili di un punto di dati, restituisce la probabilità che un particolare punto di dati appartenga a tale cluster.
Esempio: La tua famiglia può essere divisa in poche generazioni, come i figli attuali, i genitori e i nonni. Un modello LCA rappresenterebbe questi 3 cluster, in cui ogni cluster è definito da un’unica funzione di probabilità basata sull’età:
Cluster | Funzione di probabilità Media | Funzione di probabilità Scostamento standard |
Attuale | 25. pos. ubicazione | 7 |
Genitori | 48 | 5 |
Nonni | 75 | 3 |
Per assegnare una persona di 30 anni a un cluster, utilizzare queste funzioni di densità di probabilità per calcolare che esiste una probabilità del 44% di essere in Corrente, <1% di probabilità di essere in Genitori e di <1% di probabilità di essere in Nonni. Questo individuo verrebbe assegnato al suo cluster più probabile, Current.
Un modello LCA può essere applicato a più variabili moltiplicando la probabilità che un punto di dati appartenga a un cluster basato su ogni variabile. Il modello può essere applicato a diversi tipi di variabile utilizzando diverse funzioni di densità di probabilità:
Tipo | Trasformazione | Funzione densità di probabilità |
Categorico | Codificato fittizio (N-1) | Bernoulli |
Binario | Bernoulli | |
Numerico | Normale |
Determinazione del numero di classi
Per determinare il numero ottimale di lezioni, Stats iQ utilizza un punteggio BIC.
Valutazione dell’adattamento del modello
Per valutare la “bontà” oggettiva di un modello, Stats iQ utilizza un punteggio della silhouette basato sulla probabilità. Un punteggio della silhouette è una misura di come ciascun punto di dati si trova all’interno del proprio cluster. Un punteggio della silhouette misura la somiglianza di un punto particolare con tutti gli altri punti del suo ammasso e lo confronta con quanto è simile a tutti i punti nel suo ammasso più vicino. Per misurare la somiglianza tra due punti di dati, Stats iQ calcola la distanza massima (una metrica di distanza che funziona per i dati binari, categorici e numerici) tra i punti.