Análisis de clústeres
Acerca del análisis de clústeres
Cuando analizamos nuestros datos, a menudo nos ocupamos de diferentes grupos demográficos y segmentaremos a los encuestados por ingresos, región, edad y más. Pero a veces estas etiquetas pueden ser reductivas; después de todo, saber que tiene muchos encuestados masculinos no le dice qué tipo de campaña publicitaria les gustaría ver. ¿Su público es principalmente millenials? ¿Padres de fútbol? ¿Ambos? ¿Cómo se ponen las características personales en términos que se puedan desglosar con fines de marketing?
El análisis de clústeres es un medio para detectar los grupos que aparecen de forma natural en el conjunto de datos de la encuesta. Esto se hace analizando qué cualidades demográficas, conductuales y/o basadas en creencias son las más correlacionadas.
Preparación de una encuesta para el análisis de clústeres
Para realizar un análisis de clúster, debe recopilar los datos correctos en su encuesta.
- Haga las preguntas correctas:
- Demografía: pregunte sobre la información descriptiva básica, como la edad, el grupo de ingresos, la raza o el género.
- Comportamiento: pregunte cómo interactúan los clientes con su marca y sus productos, o sobre los comportamientos que pueden estar relacionados con su comportamiento de compra. Por ejemplo, puede preguntar con qué frecuencia compra el cliente.
- Datos operativos: Se trata de información como el tiempo que pasa en su sitio web o la permanencia de un empleado en su empresa.
Consejo Q: ¿Le interesa realizar un seguimiento del tiempo invertido en una página? Es posible que le interese utilizar nuestra función de Opinión de página web. Póngase en contacto con su ejecutivo de cuentas si está interesado en obtener más información.
- Actitudes y creencias: Encueste a sus encuestados sobre sus valores centrales, sus actitudes y creencias. Esto puede incluir creencias religiosas o políticas, pero también puede preguntar sobre las creencias directamente relevantes para cómo funciona su empresa. Por ejemplo, puede pedirles que califiquen cuán importante es que las interacciones de soporte sean cara a cara.
- Formatos de pregunta: Dar formato a preguntas sobre comportamientos y creencias como escalas. El rango en una escala puede ayudarnos a comprender qué puntos de escala están correlacionados y, por lo tanto, aproximadamente en el mismo clúster; Sí/No y las preguntas de selección única no son tan útiles para el análisis de clústeres.
Ejemplo: Si pregunta “¿Qué tipo de comprador es usted?” y dé las opciones “Prefiere comprar en los centros”, “Preferir comprar online” y “Preferir comprar en boutiques”, el algoritmo de agrupación en clústeres querrá dividir a los encuestados en tres grupos, uno para cada respuesta. Si, en cambio, las planteó como una serie de preguntas (p. ej.: “¿Le gusta comprar en los centros comerciales?”) con las respuestas 1 a 7, el algoritmo de agrupación en clústeres hará un mejor trabajo al discernir realmente lo que separa a los diferentes compradores entre sí.Consejo Q: Las preguntas de Opción múltiple son las mejores para recopilar datos escalares.
- Tipos de variable: Cuando esté listo para analizar en Stats iQ, asegúrese de dar formato a las variables como categorías o números. Las fechas son incompatibles con el análisis de clúster.
Realizar análisis de clústeres
- Asegúrese de que los tipos de variables de sus preguntas estén fijados en número o categórico.
- Seleccione las variables que desea analizar a la izquierda.
- Haga clic en Clúster.
Resultados del análisis de clústeres
Fortaleza y tabla estática
En la tabla se enumerará el tamaño de muestra (cuántos encuestados aportaron datos para este análisis), el número de clústeres y la puntuación de silueta. La puntuación de la silueta se interpreta en frases como “muy fuerte” en la oración de la parte superior.
El análisis de clústeres intenta elegir automáticamente el número apropiado de clústeres evaluando la estanqueidad de la agrupación en varios números, pero penalizando a un mayor número de clústeres por ser más difícil de trabajar con ellos. Elegir el número correcto es más arte que ciencia, y deberías experimentar con diferentes números para ver qué funciona mejor.
En algunos casos, el algoritmo no podrá producir una determinada cantidad de clústeres y volverá a un número menor.
Resumen de clústeres
Sus clústeres se enumerarán en la sección Resumen de clústeres. Se describirán en función de los miembros de las preguntas del clúster que se respondan de forma más similar.
Ejemplo: El clúster 1 de esta captura de pantalla contiene personas que son:
- Casado
- Tiene maestría
- Tienen pocas personas (familiares inmediatos, hijos) que viven en su casa
- Joven
Haga clic en el nombre de un clúster para cambiarle el nombre.
Consejo Q: Cambiar el nombre de sus clústeres es importante para que sus resultados tengan más sentido en un contexto de marketing o del mundo real.
Tabla de resultados de clúster
En la tabla Resultados de clúster, se resaltarán las variables principales del clúster. Para las variables categóricas, se darán la opción más común y el porcentaje de encuestados del clúster que proporcionaron esta respuesta. Para las variables numéricas, verá una respuesta promedio.
Ejemplo: en esta captura de pantalla, el nivel de educación es categórico, por lo que vemos un desglose en los porcentajes de encuestados con títulos de doctorado vs. Menos que la educación de un bachillerato vs. Maestría.
La edad es numérica aquí, por lo que vemos la edad media de cada clúster (32,4 para el clúster 1, 50,3 para el clúster 2).
Para obtener más información sobre la creación de variables a partir de clústeres, consulte la sección Crear variable a partir de clústeres.
Importancia de la variable
La tabla Importancia de variable muestra la fuerza de la relación entre cada variable y los clústeres. Una relación más fuerte indica que la variable era más importante en la creación de los clústeres.
Para calcularlo, ejecutamos regresiones para cada variable. Por ejemplo, tendríamos que correr la edad en relación con el resultado del clúster, las horas trabajadas contra el resultado del clúster, etc.
Los valores r-cuadrado resultantes de esas regresiones se escalan para que el R-cuadrado más alto se fije en 1.
Crear variables nuevas a partir de resultados
Una vez que haya determinado los clústeres entre los encuestados, puede convertir estas categorías en nuevas variables que puede analizar en Stats iQ.
Primero, asegúrese de cambiar el nombre de sus clústeres haciendo clic en sus nombres.
Una vez que los clústeres tengan nombres que tengan sentido para usted, haga clic en Crear variable a partir de clústeres en la tabla Resultados de clúster. Esto añadirá automáticamente una variable categórica a la lista de variables de la izquierda.
Notas técnicas
El análisis de clústeres en Stats iQ utiliza Latent Class Analysis (LCA) para dividir los datos proporcionados por el usuario en sus clústeres subyacentes. A diferencia de otros algoritmos de agrupación en clústeres, el algoritmo Stats iQ LCA permite agrupar en clústeres tipos de datos mixtos (numéricos, categóricos y binarios).
Análisis de clase latente de tipo mixto
Latent Class Analysis (LCA) es un modelo de agrupación en clústeres basado en probabilidad. Cada clúster se define mediante una colección de funciones de densidad de probabilidad que, basándose en el valor de las variables de un punto de datos, devuelve la probabilidad de que un punto de datos en particular pertenezca a ese clúster.
Ejemplo: Tu familia se puede dividir en unas cuantas generaciones, como los hijos actuales, los padres y los abuelos. Un modelo LCA representaría estos 3 clústeres, donde cada clúster está definido por una única función de probabilidad basada en la edad:
Clúster | Función de probabilidad media | Función de probabilidad Desviación estándar |
Actual | 25 | 7 |
Padres | 48 | 5 |
Abuelos | 75 | 3 |
Para asignar a alguien que tiene 30 años a un clúster, use estas funciones de densidad de probabilidad para calcular que hay un 44% de probabilidad de que estén en Actual, y el 1% de probabilidad de que estén en Padres y <1% de probabilidad que estén en Abuelos. Esta persona estaría asignada a su clúster más probable, Actual.
Un modelo LCA se puede aplicar a múltiples variables multiplicando la probabilidad de que un punto de datos pertenezca a un clúster basado en cada variable. El modelo se puede aplicar a diferentes tipos de variable utilizando diferentes funciones de densidad de probabilidad:
Tipo | Transformación | Función de densidad de probabilidad |
Categórico | Código ficticio (N-1) | Bernoulli |
Binario | Bernoulli | |
Numérico | Normal |
Determinación del número de clases
Para determinar el número óptimo de clases, Stats iQ utiliza una puntuación BIC.
Evaluación de ajuste de modelo
Para evaluar la “bondad” objetiva de un modelo, Stats iQ utiliza una puntuación de silueta basada en probabilidad. Una puntuación de silueta es una medida de lo bien que se encuentra cada punto de datos dentro de su clúster. Una puntuación de silueta mide la similitud de un punto en particular con todos los demás puntos en su clúster y compara eso con lo similar que es a todos los puntos en su clúster vecino más cercano. Para medir la similitud entre dos puntos de datos, Stats iQ calcula la distancia gower (una métrica de distancia que funciona para datos binarios, categóricos y numéricos) entre los puntos.