Définition de la cluster analysis
La cluster analysis (également appelée analyse en cluster ou analyse par grappes) est une méthode statistique de traitement des données qui organise les éléments étudiés en groupes en fonction de leur degré de similitude. Son objectif est d’identifier et visualiser des ensembles d’éléments similaires en fonction de critères définis.
L’analyse par grappes concerne les matrices de données dans lesquelles les variables n’ont pas déjà été partitionnées en sous-ensembles conditionnés.
Cette méthode statistique utilise un algorithme de machine learning non supervisé. Vous ne pouvez pas savoir avant d’exécuter l’algorithme combien de clusters vont être identifiés. Contrairement à de nombreuses autres méthodes statistiques, l’analyse en clusters est généralement utilisée lorsqu’il n’y a pas d’hypothèse sur les relations probables entre les données. Elle fournit des informations sur les relations entre les data, leur distance (degré de différences ou de similitudes) mais ne traite pas de leur nature et de leur signification.
Le clustering est réalisée en prenant en compte la distance inter-cluster et intra-cluster :
- La distance intra-cluster est la distance entre les points de données à l’intérieur d’un groupe. S’il existe un fort effet de regroupement entre des data, cette distance doit être faible pour assurer une certaine homogénéité.
- La distance inter-cluster est la distance entre les points de données des différents groupes identifiés. Lorsqu’il existe de nombreux clusters, la distance est importante et traduit une hétérogénéité.
Concrètement, le lien entre deux clusters fait référence à la différence ou à la similitude de deux groupes.
eBook: Le nouveau monde des études
Télécharger gratuitementComment utiliser l’analyse en clusters ?
L’utilisation la plus courante de la cluster analysis est la classification. Les sujets sont répartis en groupes en fonction de leur degré de similarité, chaque groupe ayant des caractéristiques différentes des autres clusters.
Dans un contexte d’étude de marché, cette méthode peut être utilisée pour identifier des catégories de cibles et de clients en se basant sur des critères sociodémographiques comme l’âge ou le niveau de revenus ou encore des critères géographiques comme le type de zone d’habitation.
En marketing, la cluster analysis peut être employée pour segmenter une audience afin que chaque groupe d’acheteurs puisse être ciblé avec les bons messages, les bons canaux et au bon moment.
Dans le domaine de la santé, cette démarche statistique peut aider les chercheurs à repérer des facteurs de cause à effet. Par exemple, identifier des zones géographiques dans lesquelles les individus sont plus ou moins porteurs de certaines maladies. Cela permet ainsi de réaliser des études sur l’impact de certains environnements sur la santé des personnes.
Quel que soit l’objectif ou le domaine d’application, l’analyse en clusters ne peut se réaliser qu’après avoir effectué un nettoyage des données. Il est en effet nécessaire d’assurer la qualité des données pour obtenir des résultats probants et utilisables puisque le clustering utilise des points de données comme référence.
Les bases de la cluster analysis
Lorsqu’on débute un clustering, il est logique de se concentrer que les méthodes qui affectent chaque sujet à une seule classe. Les sujets au sein d’une classe sont supposés être indiscernables les uns des autres.
Supposons que la structure des données implique un ensemble non ordonné de classes discrètes (numériques). Chaque ensemble de données (dataset) est différent et aucun n’a plus de poids qu’un autre. Dans certains cas, il est également possible de créer des subdivisions, ou sous-classes, créant ainsi une structure hiérarchique.
Aussi, la création de clusters peut être considérée comme « pré-classificatoires » dans le sens où le chercheur statistique n’a pas utilisé de jugement préalable pour partitionner les objets. Cependant, on suppose que certains des objets sont hétérogènes et que des « clusters » existent.
Mais, étant donné qu’aucune information sur la définition et l’identification précise des groupes n’est formellement connue à l’avance, les questions relatives à l’analyse par grappes qu’il convient de se poser sont :
- Quelle mesure de similarité inter-objets utiliser et comment chaque variable doit-elle être « pondérée » dans la construction d’une telle mesure synthétique ?
- Une fois les similitudes inter-objets obtenues, comment les classes doivent-elles être formées ?
- Une fois les classes formées, quelles mesures récapitulatives de chaque groupe sont appropriées dans un sens descriptif ; c’est-à-dire, comment les clusters doivent-ils être définis ?
- En supposant que des descriptions adéquates des grappes puissent être obtenues, quelles déductions peuvent être tirées concernant leur signification statistique ?
Le choix d’algorithmes à utiliser pour les analyses en grappes
Le choix de l’algorithme à utiliser pour réaliser votre clustering est très important, en particulier lorsque vous avez des données mixtes, c’est-à-dire des données numériques et nominales (couleur, espèce, forme, etc.).
Dans les principaux outils statistiques et d’exploration de données, vous trouverez une gamme d’algorithmes prédéfinis prêts à analyser vos matrices. Voici deux des plus appropriés pour analyser des clusters.
K-Means
Il établit la présence de groupes en trouvant leurs points centroïdes. Un point centroïde correspond à la moyenne de tous les points de données d’un cluster.
En évaluant de manière itérative la distance euclidienne entre chaque point du dataset, chacun peut être attribué à un groupe. Les points centroïdes sont aléatoires pour commencer et changeront à chaque fois que le processus est effectué étant donné que le clustering deviendra de plus en plus précis.
La méthode K-Means est couramment utilisée dans la cluster analysis mais elle ne s’avère réellement utile que pour analyser des données scalaires, c’est-à-dire sur une échelle numérique.
K-Medoids
Cette méthode fonctionne de la même manière que la K-Means, mais au lieu d’utiliser des points centroïdes moyens, il établit des médioïdes qui sont de véritables points de données interprétables.
Cet algorithme offre un avantage pour l’analyse statistiques des données d’enquête car il s’adapte à la fois aux données scalaires et non ordinales. En effet, plutôt que de mesurer la distance euclidienne entre le point médioïde et ses voisins, l’algorithme peut mesurer la distance dans plusieurs dimensions, offrant la possibilité de travailler sur un certain nombre de catégories et de variables différentes.
Pour ces deux méthodes, le résultat du clustering est nommé (k) où (k) = le nombre de clusters.
Analyse typologique + analyse factorielle
Lorsque vous traitez un grand nombre de variables, par exemple lors de l’analyse des résultats d’une enquête longue ou complexe, il peut être utile de simplifier vos données avant d’effectuer la cluster analysis afin de vous faciliter la tâche. L’utilisation de facteurs réduit le nombre de dimensions sur lesquelles vous effectuez le clustering et peut vous permettre de créer des clusters qui reflètent davantage les véritables modèles présents dans les data.
L’analyse factorielle est une technique permettant de prendre un grand nombre de variables et de combiner celles qui se rapportent au même facteur ou concept sous-jacent, de sorte à vous retrouver avec un plus petit nombre de dimensions.
Par exemple, l’analyse factorielle peut vous aider à rassembler des questions telles que :
- « Avez-vous reçu un bon service ? »
- « Avez-vous confiance en l’agent à qui vous avez parlé ? »
- « Avons-nous résolu votre requête ? »
Ce rassemblement vous permet de remplacer les trois questions par un un seul facteur : la satisfaction du client. De cette façon, vous pouvez réduire la complexité de vos données d’enquête et arriver plus rapidement à un nombre gérable de clusters.
eBook: Le nouveau monde des études