Analyse de cluster
À propos de l’analyse de cluster
Lorsque nous analysons nos données, nous nous intéressons souvent à différents groupes démographiques et segmenterons les répondants par revenu, région, âge, etc. Mais parfois, ces étiquettes peuvent être réductrices. Après tout, savoir que vous avez beaucoup de répondants masculins ne vous indique pas le type de campagne publicitaire qu’ils aimeraient voir. Votre public est-il avant tout des milléniaux ? Soccer dads ? Les deux ? Comment définissez-vous les caractéristiques personnelles dans des termes qui peuvent être décomposés à des fins de marketing ?
L’analyse de groupes permet de détecter les groupes qui apparaissent naturellement dans le jeu de données de votre enquête. Cela se fait en analysant quelles qualités démographiques, comportementales et/ou fondées sur la croyance sont les plus fortement corrélées.
Préparation d’une enquête pour l’analyse de cluster
Pour effectuer une analyse de cluster, vous devez collecter les données correctes dans votre enquête.
- Posez les bonnes questions :
- Données démographiques : demandez des informations descriptives de base, telles que l’âge, la tranche de revenus, la race ou le sexe.
- Comportement : demandez aux clients comment interagir avec votre marque et vos produits, ou aux comportements liés à leur comportement d’achat. Par exemple, vous pouvez demander à quelle fréquence le client fait ses courses.
- Données opérationnelles : il s’agit d’informations telles que le temps passé sur votre site Web ou l’occupation d’un salarié dans votre société.
Astuce Qualtrics : êtes-vous intéressé par le suivi du temps passé sur une page ? Vous pourriez alors être intéressé par l’utilisation de notre fonctionnalité de Feedback de site Web. Contactez votre commercial si vous souhaitez en savoir plus.
- Attitudes et convictions : interrogez vos répondants sur leurs valeurs fondamentales, leurs attitudes et leurs croyances. Cela peut inclure des croyances religieuses ou politiques, mais vous pouvez également vous renseigner sur les croyances directement pertinentes pour le fonctionnement de votre entreprise. Par exemple, vous pouvez leur demander d’évaluer l’importance des interactions de support en face à face.
- Formats de question : mettez en forme les questions sur les comportements et les croyances sous forme d’échelles. La plage sur une échelle peut nous aider à comprendre quels points d’échelle sont corrélés et donc grossièrement dans le même cluster ; les questions Oui/Non et à sélection unique ne sont pas aussi utiles pour l’analyse de groupes.
Exemple : si vous demandez « Quel type d’acheteur êtes-vous ? » et proposer les options « Privilégier le shopping dans les centres commerciaux », « Privilégier les achats en ligne » et « Préférer faire ses courses dans les boutiques », l’algorithme de regroupement voudra diviser les répondants en trois groupes, un pour chaque réponse. Si vous avez plutôt posé ces questions sous la forme d’une série de questions (par exemple, « Aimez-vous faire vos courses dans les centres commerciaux ? ») avec les réponses 1 à 7, l’algorithme de clustering fera un meilleur travail pour vraiment discerner ce qui sépare les différents acheteurs les uns des autres.Astuce Qualtrics : les questions à choix multiples sont les meilleures pour collecter des données scalaires.
- Types de variables : Lorsque vous êtes prêt à analyser dans Stats iQ, veillez à mettre en forme vos variables en tant que catégories ou nombres. Les dates sont incompatibles avec l’analyse de cluster.
Exécution de l’analyse de cluster
- Assurez-vous que les types de variables de vos questions sont définis sur un nombre ou une catégorie.
- Sélectionnez les variables que vous souhaitez analyser sur la gauche.
- Cliquez sur Cluster.
Résultats de l’analyse des regroupements
Table des forces et des statistiques
Le tableau affichera la taille de l’échantillon (nombre de répondants ayant contribué aux données de cette analyse), le nombre de clusters et le score de silhouette. Le score de silhouette est interprété en phrases comme « très fortement » dans la phrase en haut.
L’analyse de clusters tente de choisir automatiquement le nombre approprié de clusters en évaluant l’étroitesse du clustering à différents nombres, mais en pénalisant un plus grand nombre de clusters pour être plus difficile à utiliser. Choisir le bon nombre est plus de l’art que de la science, et vous devriez expérimenter différents nombres pour voir ce qui fonctionne le mieux.
Dans certains cas, l’algorithme ne sera pas en mesure de produire un certain nombre de clusters et il retombera à un nombre plus petit.
Résumé du cluster
Vos clusters seront répertoriés dans la section Résumé du cluster. Ils seront décrits en fonction des questions auxquelles les membres du cluster ont répondu de la manière la plus similaire.
Exemple : le cluster 1 de cette capture d’écran contient des personnes qui sont :
- Marié(e)
- Disposer de diplômes de master
- Avoir peu de personnes (membres immédiats de la famille, enfants) vivre à leur domicile
- Jeune
Cliquez sur le nom d’un cluster pour le renommer.
Astuce Qualtrics : il est important de renommer vos clusters pour donner plus de sens à vos résultats dans un contexte réel ou marketing.
Table de résultats de cluster
Dans la table Résultats de cluster, les principales variables du cluster seront mises en surbrillance. Pour les variables catégoriques, l’option la plus courante et le pourcentage de répondants dans le cluster qui ont fourni cette réponse seront donnés. Pour les variables numériques, vous verrez une réponse moyenne.
Exemple : dans cette capture d’écran, le niveau d’éducation est catégorique, donc nous voyons une répartition sur les pourcentages de répondants avec des diplômes de doctorat vs. Inférieur à l’enseignement secondaire vs. Master.
L’âge est numérique ici, nous voyons donc l’âge moyen pour chaque cluster (32.4 pour Cluster 1, 50.3 pour Cluster 2).
Pour en savoir plus sur la création de variables à partir de clusters, voir la section Créer une variable à partir de clusters.
Importance de la variable
Le tableau Importance de la variable affiche la force de la relation entre chaque variable et les clusters. Une relation plus forte indique que la variable était plus importante dans la création des clusters.
Pour le calculer, nous exécutons des régressions pour chaque variable. Par exemple, nous aurions atteint l’âge par rapport au résultat du cluster, les heures travaillées par rapport au résultat du cluster, etc.
Les valeurs du coefficient de détermination résultant de ces régressions sont ensuite augmentées de sorte que le coefficient de détermination le plus élevé soit défini sur 1.
Création de variables à partir des résultats
Une fois que vous avez déterminé des groupes parmi vos répondants, vous pouvez transformer ces catégories en nouvelles variables que vous pouvez analyser dans Stats iQ !
Tout d’abord, assurez-vous de renommer vos clusters en cliquant sur leurs noms.
Une fois que vos clusters ont des noms qui vous conviennent, cliquez sur Créer une variable à partir de clusters sous la table Résultats du cluster. Cela ajoutera automatiquement une variable catégorique à votre liste de variables à gauche.
Remarques techniques
L’analyse de cluster dans Stats iQ utilise l’analyse de classe latente (LCA) pour partitionner les données fournies par l’utilisateur dans ses clusters sous-jacents. Contrairement à d’autres algorithmes de clustering, l’algorithme LCA de Stats iQ permet de grouper des types de données mixtes (numériques, catégoriques et binaires).
Analyse de classe latente de type mixte
L’analyse de classe latente (LCA) est un modèle de clustering basé sur la probabilité. Chaque cluster est défini par une collection de fonctions de densité de probabilité qui, en fonction de la valeur des variables d’un point de données, renvoie la probabilité qu’un point de données particulier appartienne à ce cluster.
Exemple : Votre famille peut être scindée en quelques générations, comme les enfants actuels, les parents et les grands-parents. Un modèle LCA représenterait ces 3 clusters, où chaque cluster est défini par une seule fonction de probabilité basée sur l’âge :
Cluster | Fonction de probabilité moyenne | Fonction de probabilité Ecart-type |
actuel | 25 | 7 |
Parents | 48 | 5 |
Grand-parents | 75 | 3 |
Pour affecter une personne de 30 ans à un cluster, utilisez ces fonctions de densité de probabilité pour calculer qu’il y a 44 % de probabilité qu’elle soit dans Current, <1% de probabilité qu’elle soit dans Parents et <1% de probabilité qu’elle soit dans Grand-parents. Cet individu serait affecté à son cluster le plus probable, Actuel.
Un modèle LCA peut être appliqué à plusieurs variables en multipliant la probabilité qu’un point de données appartienne à un cluster basé sur chaque variable. Le modèle peut être appliqué à différents types de variables en utilisant différentes fonctions de densité de probabilité :
Saisir | Transformation | Fonction de densité de probabilité |
Catégorique | Codé fictif (N-1) | Bernoulli |
Binaire | Bernoulli | |
Numérique | Normal |
Détermination du nombre de classes
Pour déterminer le nombre optimal de classes, Stats iQ utilise un score BIC.
Évaluation de l’adaptation de modèle
Pour évaluer l’objectif « bonté » d’un modèle, Stats iQ utilise un score de silhouette basé sur la probabilité. Un score de silhouette est une mesure de la qualité de chaque point de données dans son cluster. Un score de silhouette mesure la similitude d’un point particulier avec tous les autres points de son cluster et compare cette similitude à celle de tous les points de son cluster voisin le plus proche. Pour mesurer la similitude entre deux points de données, Stats iQ calcule la distance de goulot (une métrique de distance qui fonctionne pour les données binaires, catégoriques et numériques) entre les points.