Plantilla de artículo
¿Qué es la regresión?
Regresión estima una fórmula matemática que relaciona una o más variables de entrada con una variable de salida.
Por ejemplo, supongamos que usted tiene un puesto de limonada y le interesa saber qué genera ingresos. Sus datos incluyen los “Ingresos” de cada día, la “Temperatura” alta, la “Cantidad de niños que pasaron por allí”, la “Cantidad de adultos que pasaron por allí”, la “Señalización” que utilizó ese día y los “Ingresos de un competidor cercano”.
Ingresos | Temperatura (Celsius) | Minutos de recreo | Número de niños que pasaron por allí | Número de adultos que pasaron caminando | Señalización | Ingresos de la competencia |
---|---|---|---|---|---|---|
$ 44 | 28,2 | 30 | 43 | 380 | Pintado a mano | $20 |
$ 23 | 21,4 | 42 | 28 | 207 | CONDUJO | $ 30 |
$ 43 | 32,9 | 14 | 43 | 364 | Pintado a mano | $34 |
$ 30 | 24,0 | 24 | 18 | 103 | CONDUJO | $15 |
etc. | etc. | etc. | etc. | etc. | etc. | etc. |
¿Crees que “Temperatura” (una entrada o variable explicativa) podría afectar los “Ingresos” (una variable de salida) o variable de respuesta). Al utilizar la regresión para analizar esta relación, podría obtenerse esta fórmula:
Ingresos = 2,71 * Temperatura – 35
Esta fórmula es útil por dos razones.
En primer lugar, permite comprender una relación: los días más calurosos generan más “ingresos”. En particular, el 2,71 antes de “Temperatura” (llamado coeficiente) significa que por cada grado que sube la “Temperatura”, en promedio habrá $2,71 más “Ingresos”. Esta Insight podría llevarte a decidir no vender limonada en los días fríos.
En segundo lugar, y de manera relacionada, también puede ayudarle a realizar predicciones específicas. Si la “Temperatura” es 24, podrías estimar que desde…
Ingresos = 2,71 * Temperatura – 35
Ingresos = 2,71 * 24 – 35
Ingresos = 30
…tendrás alrededor de $30 en “Ingresos”. Esa podría ser información útil para saber si podrá realizar un pago ese día, suponiendo que esté seguro de que su modelo es preciso.
Ahora repasaremos el proceso de creación de esta ecuación de regresión.
Preparación para la creación de un modelo de regresión
1. Piensa en la teoría de tu regresión.
Una vez que haya elegido una variable de respuesta, “Ingresos , “ Plantear la hipótesis de cómo las distintas entradas pueden estar relacionadas con él. Por ejemplo, usted podría pensar que una “temperatura” más alta conducirá a “ingresos” más altos, pero podría no estar seguro de cómo las distintas señalizaciones afectarán los “ingresos”. , “ y usted podría creer que las “ventas de la competencia” se ven afectadas por la “temperatura”, pero no tienen ningún impacto en su puesto de limonada.
El objetivo de la regresión es típicamente entender la relación entre varias entradas y una salida, por lo que en este caso probablemente decidirías crear un modelo que explique “Ingresos” con “Temperatura”. y “Señalización” (también dicho como “predecir”) Ganancia de Temperatura y Señalización “ , incluso si estás más interesado en la explicación que en la predicción real).
Probablemente no incluiría “Ventas de la competencia” en su regresión. Es probable que esté correlacionado con “Ingresos”, pero no aparece antes en la cadena causal, por lo que incluirlo confundiría su modelo.
2. “Describe” todas las variables que podrían ser útiles para tu modelo
Empezar por describiendo la variable de respuesta, en este caso “Ingresos”, y obtener una buena idea de ella. Haga lo mismo para sus variables explicativas.
Nota que tiene una forma como ésta…
…donde la mayoría de los datos están en los primeros contenedores del histograma. Esas variables requerirán atención especial más adelante.
3. “Relacionar” todas las posibles variables explicativas con la variable respuesta
Stats iQ lo hará Ordenar los resultados según la fuerza de la relación estadística . Eche un vistazo y tenga una idea de los resultados, observando qué variables están relacionadas con los “Ingresos” y cómo.
Si ya tienes una buena idea de qué variables deberían determinar teóricamente el resultado (por ejemplo, a partir de artículos académicos anteriores), debes omitir este paso. Pero si su análisis es de naturaleza un poco más exploratoria (como una encuesta de clientes), este es un paso útil e importante.
4. Comience a construir la regresión
Construyendo una regresión El modelo es un proceso iterativo.Recorrerás las siguientes tres etapas tantas veces como sea necesario.
Las tres etapas de la construcción de un modelo de regresión
Etapa 1: Agregar o restar una variable
Una por una, comience a agregar variables que sus análisis anteriores indicaron que estaban relacionadas con “Ingresos” (o agregue variables que tenga una razón teórica para agregar). Ir uno por uno no es estrictamente necesario, pero hace que sea más fácil identificar y solucionar problemas a medida que avanza y le ayuda a tener una idea del modelo.
Digamos que comienzas prediciendo “Ingresos” con “Temperatura”. Encuentras una relación fuerte, evalúas el modelo y lo encuentras satisfactorio (más detalles en un minuto).
Ingresos = 2,71 * Temperatura – 35
Luego agrega “Número de niños que pasaron caminando” y ahora su modelo de regresión tiene dos términos, ambos son predictores estadísticamente significativos. Como esto:
Ingresos = 2,5 * Temperatura + 0,3 * Número de niños que pasaron por allí – 12
Luego agregas “Número de adultos que pasaban por allí”, y los resultados del modelo ahora muestran que “Número de adultos” es estadísticamente significativo en el modelo, pero “Número de niños” ya no lo es. Normalmente eliminarías “Número de hijos” del modelo. Ahora tenemos:
Ingresos = 2,6 * Temperatura + 0,4 * Número de Adultos Quien Caminó Por – 14
Esto significa que “Número de adultos” es el mejor predictor de “Ingresos”; es decir, si usted sabe cuántos adultos vienen, saber cuántos niños vienen no agrega ninguna información nueva; no le ayuda a predecir las ventas.
Tal vez pienses en eso y recuerdes que los niños en realidad nunca compran tu limonada, por lo que tiene sentido que esa variable no pertenezca al modelo.
Pero ¿por qué fue estadísticamente significativo en el primer modelo? Probablemente porque “Número de niños” está correlacionado con “Número de adultos”. , “ y como “Número de adultos” aún no estaba en el modelo, “Número de niños” estaba actuando como un indicador aproximado del “número de adultos”.
Interpretar los resultados de una regresión requiere mucho criterio, y el hecho de que una variable sea estadísticamente significativa no significa que sea realmente causal. Pero al sumar y restar variables con cuidado, notar cómo cambia el modelo y pensar siempre en la teoría detrás de su modelo, puede descubrir relaciones interesantes en sus datos.
Etapa 2: Evaluar el modelo
Cada vez que agrega o resta una variable, debe evaluar la precisión del modelo observando su r cuadrado (R 2 ), AICR y sus gráficos residuales. Cada vez que cambie el modelo, compare los nuevos gráficos de R cuadrado, AICR y residuos con los antiguos para determinar si el modelo ha mejorado o no.
R-cuadrado (R 2 )
La métrica numérica para cuantificar la precisión de predicción del modelo se conoce como r-cuadrado, que está entre cero y uno. Un cero significa que el modelo no tiene valor predictivo y un uno significa que el modelo predice todo perfectamente.
Por ejemplo, el modelo de la izquierda es más preciso que el de la derecha; es decir, si conoces la “Temperatura”, tienes una idea bastante precisa de lo que significan los “Ingresos”. Estará a la izquierda, pero no realmente a la derecha.
No existe una definición fija de un r-cuadrado “bueno”. En algunos entornos puede ser interesante ver algún efecto, mientras que en otros el modelo puede ser inútil a menos que sea muy preciso.
Cada vez que se agrega una variable, el r cuadrado aumentará, por lo que el objetivo no es lograr el r cuadrado más alto posible; más bien, se desea equilibrar la precisión del modelo (r cuadrado) con su complejidad (generalmente, la cantidad de variables que contiene).
AIC
AICR es una métrica que equilibra la precisión con la complejidad: una mayor precisión conduce a mejores puntuaciones, una mayor complejidad (más variables) conduce a peores puntuaciones. El modelo con el AICR más bajo es mejor.
Tenga en cuenta que la métrica AICR solo es útil para comparar AICR de modelos que tienen la mismo número de filas de datos y la misma variable de salida .
Intervalos de predicción
Otra forma útil de tener una idea de la precisión de su modelo es introducir valores de muestra en su fórmula y ver el intervalo de predicción que calcula Stats iQ . Por ejemplo, si introduce el número 30 en la fórmula, Stats iQ le dirá que el valor previsto es 45,5, pero el intervalo de confianza del 95% es de 36,4 a 54,5, lo que significa que podría estar 95% seguro de que si mañana hiciera 30 grados, obtendría entre $36,40 y $54,50 en “Ingresos”. Se podría imaginar un modelo más preciso donde el intervalo de predicción fuera una banda estrecha, como $44 a $48, o uno menos preciso donde el intervalo fuera amplio, como $20 a $72.
Este enfoque solo es útil cuando los gráficos residuales tienen un aspecto saludable (ver a continuación), de lo contrario serán inexactos.
Gráficos residuales
Los residuos son la herramienta de diagnóstico principal para evaluar y mejorar la regresión, por lo que hay una sección completamente separada sobre ellos. Interpretación de residuos para mejorar su modelo . Aprenderá o refrescará su memoria sobre qué son los residuos, cómo usarlos para evaluar y mejorar el modelo y cómo pensar en qué tan preciso necesita que sea su modelo.
Te recomendamos leerlo completo, ya que cubrirá todo lo que necesitas para producir un gran modelo. Pero siempre puedes volver a ello, por supuesto.
Etapa 3: Modificar el modelo en consecuencia
Si su valoración del modelo resultó satisfactoria, ya está o puede volver a la Etapa 1 e ingresar más variables.
Si su valoración detecta que el modelo tiene deficiencias, utilizará las alertas de Stats iQ y la Sección de diagnóstico residual Para solucionar los problemas.
A medida que modifica el modelo, observe continuamente los cambios en el R cuadrado, el AICR y los diagnósticos residuales, y decida si los cambios que está realizando ayudan o perjudican a su modelo.