Análise de Cluster
Sobre a análise de cluster
Quando analisamos nossos dados, muitas vezes nos preocupamos com diferentes grupos demográficos, e vamos segmentar os entrevistados por renda, região, idade e muito mais. Mas às vezes esses rótulos podem ser redutivos – afinal, saber que você tem muitos entrevistados do sexo masculino não diz que tipo de campanha publicitária eles gostariam de ver. Seu público é majoritariamente millenials? Anúncios de futebol? Os dois? Como você coloca características pessoais em condições que podem ser divididas para fins de marketing?
A análise de cluster é um meio de detectar os grupos que ocorrem naturalmente no conjunto de dados da sua pesquisa. Isso é feito analisando quais qualidades demográficas, comportamentais e/ou baseadas em crenças são as mais altamente correlacionadas.
Preparação de uma pesquisa para análise de cluster
Para executar uma análise de cluster, você precisa coletar os dados corretos em sua pesquisa.
- Faça as perguntas certas:
- Demografia: Pergunte sobre informações descritivas básicas, como idade, faixa de renda, raça ou sexo.
- Comportamento: pergunte como os clientes interagem com sua marca e seus produtos ou sobre comportamentos que possam estar relacionados ao comportamento de compra deles. Por exemplo, você pode perguntar com que frequência o cliente vai às compras.
- Dados operacionais: são informações como o tempo gasto no seu site ou o prazo do contrato de um funcionário em sua empresa.
Qdica: Você está interessado em rastrear o tempo gasto em uma página? Em seguida, talvez você tenha interesse em usar nosso recurso de Website Feedback. Entre em contato com seu Executivo de contas se você estiver interessado em saber mais.
- Atitudes e crenças: pesquise seus entrevistados sobre seus principais valores, atitudes e crenças. Isso pode incluir crenças religiosas ou políticas, mas você também pode perguntar sobre crenças diretamente relevantes para o modo como sua empresa trabalha. Por exemplo, você pode pedir a eles que classifiquem a importância de interações de suporte serem presenciais.
- Formatos de perguntas: Formatar perguntas sobre comportamentos e crenças como escalas. O intervalo em uma escala pode nos ajudar a entender quais pontos de escala estão correlacionados e, portanto, aproximadamente no mesmo cluster; Sim/Não e perguntas de seleção única não são tão úteis para a análise de cluster.
Exemplo: Se você perguntar “Que tipo de comprador você é?” e oferece as opções “Prefere comprar em shoppings”, “Preferir comprar online” e “Preferir comprar em butiques”, o algoritmo de agrupamento desejará dividir os entrevistados em três grupos, um para cada resposta. Se, em vez disso, você os perguntou como uma série de perguntas (por exemplo, “Você gosta de comprar em shoppings?”) com as respostas de 1 a 7, o algoritmo de agrupamento fará um trabalho melhor para realmente discernir o que separa compradores diferentes um do outro.Qdica: As perguntas de múltipla escolha são as melhores para coletar dados escalares.
- Tipos de variável: Quando estiver pronto para analisar no Stats iQ, certifique-se de formatar suas variáveis como categorias ou números. As datas são incompatíveis com a análise de cluster.
Executar análise de cluster
- Certifique-se de que os tipos de variável das perguntas estejam definidos como número ou categórico.
- Selecione as variáveis que deseja analisar à esquerda.
- Clique em Cluster.
Resultados da análise de cluster
Tabela de força e estatística
A tabela listará o tamanho da amostra (quantos entrevistados contribuíram com os dados para esta análise), o número de clusters e a pontuação da silhueta. A pontuação da silhueta é interpretada em frases como “muito forte” na frase no topo.
A análise de cluster tenta escolher o número apropriado de clusters automaticamente, avaliando a rigidez do agrupamento em vários números, mas penalizando um número maior de clusters por ser mais difícil de trabalhar. Escolher o número certo é mais arte do que ciência, e você deve experimentar com números diferentes para ver o que funciona melhor.
Em alguns casos, o algoritmo não será capaz de produzir um determinado número de clusters e voltará a um número menor.
Resumo de Cluster
Seus clusters serão listados na seção Resumo de cluster. Eles serão descritos com base nas questões que os membros do cluster responderam mais de forma semelhante.
Exemplo: o cluster 1 nesta captura de tela contém pessoas que são:
- Casado
- Ter mestrado
- Tem poucas pessoas (familiares imediatos, crianças) morando em sua casa
- Jovem
Clique no nome de um cluster para renomeá-lo.
Qdica: Renomear seus clusters é importante para fazer com que seus resultados façam mais sentido em um contexto real ou de marketing.
Tabela de resultados cluster
Na tabela Resultados de cluster, as variáveis principais do cluster serão destacadas. Para as variáveis categóricas, será dada a opção mais comum e a porcentagem de respondentes no cluster que forneceram essa resposta. Para variáveis de número, você verá uma resposta média.
Exemplo: nesta captura de tela, o nível de instrução é categórico, então vemos um detalhamento nas porcentagens de entrevistados com doutorado vs. Menos do que o ensino médio vs. Mestrado.
A idade é numérica aqui, por isso vemos a idade média para cada cluster (32,4 para cluster 1, 50,3 para cluster 2).
Para saber mais sobre a criação de variáveis a partir de clusters, consulte a seção Criar variável a partir de clusters.
Importância da Variável
A tabela Importância da variável mostra a força da relação entre cada variável e os clusters. Uma relação mais forte indica que a variável foi mais importante na criação dos clusters.
Para calcular isso, executamos regressões para cada variável. Por exemplo, executaríamos a idade em relação ao resultado do cluster, as horas trabalhadas em relação ao resultado do cluster, etc.
Os valores de coeficiente de determinação resultantes dessas regressões são depois escalonados de modo que o coeficiente de determinação mais alto seja definido como 1.
Criação de novas variáveis a partir de resultados
Depois de determinar clusters entre seus entrevistados, você poderá transformar essas categorias em novas variáveis que pode analisar no Stats iQ!
Primeiro, certifique-se de renomear seus clusters clicando em seus nomes.
Quando seus clusters tiverem nomes que façam sentido para você, clique em Criar variável de clusters na tabela Resultados de cluster. Isso adicionará automaticamente uma variável categórica à sua lista de variáveis à esquerda.
Notas Técnicas
A análise de cluster no Stats iQ usa a análise de classe latente (LCA) para particionar os dados fornecidos pelo usuário em seus clusters subjacentes. Ao contrário de outros algoritmos de agrupamento, o algoritmo Stats iQ LCA permite que tipos de dados mistos sejam agrupados (numéricos, categóricos e binários).
Análise de classe latente de tipo misto
Latent Class Analysis (LCA) é um modelo de clustering baseado em probabilidade. Cada cluster é definido por uma coleção de funções de densidade de probabilidade que, com base no valor das variáveis de um ponto de dados, retorna a probabilidade de um ponto de dados específico pertencer a esse cluster.
Exemplo: Sua família pode ser dividida em algumas gerações, como os filhos atuais, os pais e os avós. Um modelo LCA representaria esses 3 clusters, onde cada cluster é definido por uma única função de probabilidade baseada na idade:
Cluster | Função de probabilidade Média | Função de probabilidade Desvio padrão |
Atual | 25 | 7 |
Responsáveis | 48 | 5 |
Avós | 75 | 3 |
Para atribuir alguém que tem 30 anos a um cluster, use essas funções de densidade de probabilidade para calcular que há 44% de probabilidade de que estejam em Current, <1% de probabilidade de estarem em Pais e <1% de probabilidade de estarem em Avós. Este indivíduo seria atribuído ao seu cluster mais provável, Atual.
Um modelo LCA pode ser aplicado a múltiplas variáveis multiplicando a probabilidade de um datapoint pertencer a um cluster baseado em cada variável. O modelo pode ser aplicado a diferentes tipos de variáveis usando diferentes funções de densidade de probabilidade:
Digitar | Transformação | Função de densidade de probabilidade |
Categórico | Codificado dummy (N-1) | Bernoulli |
Binário | Bernoulli | |
Numérico | Normal |
Determinar número de classes
Para determinar o número ideal de classes, o Stats iQ utiliza uma pontuação BIC.
Avaliação do ajuste do modelo
Para avaliar a ‘bondade’ objetiva de um modelo, o Stats iQ utiliza um escore de silhueta baseado em probabilidade. Uma pontuação de silhueta é uma medida do quão bem cada ponto de dados está dentro de seu cluster. Um escore de silhueta mede a similaridade de um ponto particular com todos os outros pontos em seu cluster e compara isso ao quão semelhante é com todos os pontos em seu aglomerado vizinho mais próximo. Para medir a similaridade entre dois pontos de dados, o Stats iQ calcula a distância máxima (uma métrica de distância que funciona para dados binários, categóricos e numéricos) entre os pontos.