Guía fácil de usar para la regresión logística
¿Qué es la regresión logística?
La regresión logística estima una fórmula matemática que relaciona una o más variables de entrada con una variable de salida.
Por ejemplo, supongamos que maneja un puesto de limonada y que está interesado en qué tipos de clientes tienden a volver. Sus datos incluyen una entrada para cada cliente, su primera compra y si volvieron al mes siguiente para obtener más limonada. Sus datos podrían tener este aspecto:
Devolver | Edad del cliente | Sexo | Temporal en primera compra | Color de limonada | Longitud de pantalón |
---|---|---|---|---|---|
No lo hice | 21 | Masculino | 24 | Rosa | Pantalones cortos |
Devuelto | 34 | Femenino | 20 | Amarillo | Pantalones cortos |
Devuelto | 13 | Femenino | 25 | Rosa | Pantalones |
No lo hice | 25 | Femenino | 27 | Amarillo | Vestido |
etc. | etc. | etc. | etc. | etc. | etc. |
Piensa que la “antigüedad del cliente” (una variable de entrada o explicativa) puede afectar a “Retorno” (una variable de salida o respuesta). La regresión logística puede producir este resultado:
A los 12 años (la edad más baja), la probabilidad de que el retorno sea “Devuelto” es del 10%.
Por cada año adicional de edad, “Regresar” es 1,1 veces más para ser “Devuelto”.
Este conocimiento es útil por dos razones.
En primer lugar, le permite comprender una relación: es más probable que los clientes más antiguos vuelvan. Esta información estratégica puede llevarle a inclinar su publicidad hacia los clientes más antiguos, ya que serán más propensos a convertirse en clientes recurrentes.
En segundo lugar, y en relación con ello, también puede ayudarle a realizar predicciones específicas. Si un cliente de 24 años camina, podría estimar que si comprara un poco de limonada, hay un 26% de probabilidad de que luego se convierta en un cliente de devolución.
Comprender la multiplicación de probabilidades
Tenga en cuenta que si dijimos que “Devuelto” era “1,5 veces más probable” en alguna situación que en otra, estamos haciendo lo siguiente:
Probabilidades fueron 1:9, también escrito 1/(1+9) = 10%.
Las “probabilidades de” (el 1) se multiplican por 1,5.
Ahora 1,5:9, también escrito 1.5/(1.5+9) = 14%.
Otro ejemplo, esta vez de pasar del 50% de probabilidad a algo 3 veces más probable:
Las probabilidades eran 1:1, también escrito 1/(1+1) = 50%.
La “probabilidad de” (lado izquierdo 1) se multiplica por 3.
Ahora 3:1, también escrito 3/(3+1) = 75%.
Ahora veremos el proceso de creación de este modelo de regresión.
Preparación para crear un modelo de regresión
1. Piensa en la teoría de tu regresión.
Una vez que haya elegido una variable de respuesta, “Ingresos“ planteará la hipótesis de cómo se pueden relacionar varias entradas con ella. Por ejemplo, podría pensar que una mayor “temperatura en la primera compra” dará lugar a una mayor probabilidad de “Devuelto”, podría no estar seguro de cómo “Edad” afectará a “Retorno“, y podría creer que “Pantalones” (vs. pantalones cortos) se ve afectado por “Temperatura” pero no tiene ningún impacto en su puesto de limonada.
El objetivo de la regresión suele ser comprender la relación entre varias entradas y una salida, por lo que en este caso probablemente decidiría crear un modelo que explique “Retorno” con “Temperatura” y “Edad” (también dicho como “Predecir Retorno de Temperatura y Edad”, incluso si está más interesado en la explicación que en la predicción real).
Probablemente no incluya “Pantalones” en su regresión. Podría estar correlacionado con “Retorno” porque ambos están relacionados con “Temperatura”, pero no viene antes de “Retorno” en la cadena causal, por lo que incluirlo confundiría su modelo.
2. “Describa” todas las variables que podrían ser útiles para su modelo.
Comience describiendo la variable de respuesta, en este caso “Ingresos”, y obteniendo una buena idea. Haga lo mismo para las variables explicativas.
Tenga en cuenta que tienen una forma como esta…
…donde la mayoría de los datos están en las primeras ubicaciones del histograma. Estas variables requerirán una atención especial más adelante.
3. “Relacionar” todas las variables explicativas posibles a la variable de respuesta.
Stats iQ ordenará los resultados por la fortaleza de la relación estadística. Eche un vistazo a los resultados y descubra qué variables están relacionadas con “Ingresos” y cómo.
4. Comience a construir la regresión.
Crear un modelo de regresión es un proceso iterativo. Recorrerá las tres etapas siguientes tantas veces como sea necesario.
Las tres etapas de la construcción de un modelo de regresión
Etapa 1: Sumar o restar una variable.
Uno por uno, comience agregando variables que sus análisis anteriores indicados estaban relacionados con “Ingresos” (o agregue variables que tenga una razón teórica para agregar). Ir uno a uno no es estrictamente necesario, pero facilita la identificación y resolución de problemas a medida que avanza y lo ayuda a hacerse una idea del modelo.
Supongamos que empieza por predecir “Ingresos” con “Temperatura”. Encuentra una relación fuerte, evalúa el modelo y lo encuentra satisfactorio (más detalles en un minuto).
Devuelve <– TemperaturaLuego
añade “Color limonada” y ahora su modelo de regresión tiene dos términos, ambos son predictores estadísticamente significativos. Así:
Revenue <– Temperatura y amperio; Color limonada Entonces
se añade “Sexo”, y los resultados del modelo ahora muestran que “Sexo” es estadísticamente significativo en el modelo, pero “Color de limonada” ya no lo es. Normalmente, eliminaría el “color limón” del modelo. Ahora tenemos:
Revenue <– Temperatura y amplificador; SexEs decir
, si conoce el sexo del cliente, saber qué color de limonada pidió no le da más información sobre si será un cliente de devolución.
Podría investigar y descubrir que las mujeres tienden a recoger limonada amarilla más que los hombres y que las mujeres son más propensas a regresar. Así que inicialmente parecía que escoger el amarillo hacía que un cliente tuviera más probabilidades de regresar, pero de hecho, “Lemonade color” solo está relacionado con “Return” a través de “Sex”. Por lo tanto, cuando incluye “Sexo” en la regresión, “Color de Lemonade” desaparece de la regresión.
Interpretar los resultados de la regresión requiere mucho juicio, y solo porque una variable sea estadísticamente significativa, no significa que realmente sea causal. Pero añadiendo y restando variables cuidadosamente, notando cómo cambia el modelo y siempre pensando en la teoría detrás de su modelo, puede separar las relaciones interesantes en sus datos.
Etapa 2: Evaluar el modelo.
Cada vez que agregue o reste una variable, debe evaluar la precisión del modelo observando su R cuadrado (R2), AICc y cualquier alerta de Stats iQ. Cada vez que modifique el modelo, compare los nuevos diagramas r-cuadrado, AICc y de diagnóstico con los antiguos para determinar si el modelo ha mejorado o no.
R cuadrado (R2)
La métrica numérica para cuantificar la precisión de predicción del modelo se conoce como r-cuadrado, que se encuentra entre cero y uno. Un cero significa que el modelo no tiene ningún valor predictivo y uno significa que el modelo lo predice todo a la perfección.
Por ejemplo, los datos representados a la izquierda darán lugar a un modelo mucho menos preciso que los datos de la derecha. Imagine tratar de dibujar una línea a través de la trama de dispersión; podría separar casi completamente el azul (“Regresado”) del rojo (“No”) en el lado derecho, pero en el lado izquierdo sería difícil hacerlo.
Es decir, el lado derecho tiene un alto r-cuadrado; si conoce “Temperatura” y “Edad”, puede determinar “Devuelto” vs. “No” con bastante facilidad. El lado izquierdo tiene un r-cuadrado de bajo a medio; si sabes “Temperatura” y “Edad”, tienes una suposición bastante buena en cuanto a si será “Devuelto” vs.. “No lo había hecho”, pero habrá muchos errores.
No existe una definición fija de un r-cuadrado “bueno”. En algunas opciones puede ser interesante ver cualquier efecto, mientras que en otras su modelo puede ser inútil a menos que sea muy preciso.
Cada vez que añada una variable, r-cuadrado subirá, por lo que lograr el R-cuadrado más alto posible no es el objetivo; más bien, desea equilibrar la precisión del modelo (r-cuadrado) con su complejidad (generalmente, el número de variables que contiene).
AICc
AICc es una métrica que equilibra la precisión con la complejidad: una mayor precisión lleva a mejores puntuaciones y una complejidad añadida (más variables) lleva a peores puntuaciones. El modelo con el AICc inferior es mejor.
Tenga en cuenta que la métrica AICc solo es útil para comparar AICcs de modelos que tienen el mismo número de filas de datos y la misma variable de salida.
Alertas
De vez en cuando Stats iQ sugerirá formas de mejorar su modelo. Por ejemplo, Stats iQ puede sugerir que tome el logaritmo de una variable (detalles sobre lo que eso significa).
Matriz de confusión y curva de recuperación de precisión
La matriz de confusión y la curva de precisión y recuperación también son herramientas útiles para comprender cuán preciso es su modelo. Y si desea realizar predicciones basadas en su modelo, estas herramientas le ayudarán a hacerlo. No son estrictamente necesarias para comprender bien lo que le dice su modelo, por lo que los colocamos en una sección diferente sobre la matriz de confusión y la curva de precisión-retirada
Etapa 3: Modifique el modelo según corresponda.
Si su evaluación del modelo resulta satisfactoria, puede volver a la Etapa 1 e introducir más variables.
Si en su evaluación falta el modelo, utilizará las alertas de Stats iQ para solucionar los problemas.
A medida que modifica el modelo, tenga en cuenta continuamente el cambio de R cuadrado, AICR y diagnósticos residuales, y decida si los cambios que está realizando están ayudando o perjudicando a su modelo.