Plantilla de artículo
Stats iQ selecciona pruebas estadísticas con el objetivo de que las pruebas estadísticas sean intuitivas y libres de errores.
Esta página describe los temas generales del enfoque de Stats iQ y a continuación se describen decisiones específicas para pruebas específicas:
Supuestos básicos
Siempre que sea posible, Stats iQ utiliza de forma predeterminada pruebas que tienen menos suposiciones. Por ejemplo, las pruebas t de muestras independientes se pueden calcular de varias maneras, dependiendo de si se suponen muestras o varianzas de igual tamaño. Stats iQ ejecuta la prueba con la menor cantidad de suposiciones.
Además, Stats iQ mitiga de forma inteligente las violaciones de los supuestos de las pruebas estadísticas. Por ejemplo, las pruebas t en muestras relativamente pequeñas requieren datos distribuidos normalmente para ser precisos. Los valores atípicos o distribuciones no normales crean resultados engañosos. Cada punto de datos de
[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]
es más bajo que cada punto de datos en
[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]
pero una prueba t de muestras independientes en esos grupos no arroja una diferencia estadísticamente significativa porque el valor atípico 2000 viola los supuestos de la prueba t. Stats iQ detecta el valor atípico y recomienda en su lugar una prueba t clasificada, que produce una diferencia muy clara entre los grupos.
Transformaciones de rango
Stats iQ utiliza con frecuencia el método de transformación de rango para ejecutar pruebas no paramétricas cuando se detectan violaciones de los supuestos de las pruebas paramétricas. La transformación de rango de Stats iQ reemplaza los valores con su orden de clasificación, por ejemplo
[86, 95, 40] se transforma en [2, 3, 1]
—luego ejecuta la prueba paramétrica típica en los datos transformados. A los valores empatados se les asigna el rango promedio de los valores empatados, por lo que
[11, 35, 35, 52] se convierte en [1, 2.5, 2.5, 4].
Las pruebas transformadas por rango, que se encuentran con mayor frecuencia en la diferencia entre las correlaciones de Pearson y Spearman, son robustas a distribuciones no normales y valores atípicos, y son conceptualmente más simples que el uso de pruebas no paramétricas ligeramente más comunes.
ANOVA
Cuando los usuarios seleccionan 1 variable categórica con 3 o más grupos y 1 variable continua o discreta, Stats iQ ejecuta un ANOVA unidireccional (prueba F de Welch) y una serie de pruebas “post hoc” por pares (pruebas de Games-Howell). Las pruebas ANOVA unidireccionales buscan una relación general entre las dos variables, y las pruebas por pares prueban cada posible par de grupos para ver si un grupo tiende a tener valores más altos que el otro.
Supuestos del ANOVA de la prueba F de Welch
Stats iQ recomienda una prueba F de Welch sin clasificación si se cumplen varias suposiciones sobre los datos:
- El tamaño de la muestra es mayor a 10 veces el número de grupos en el cálculo (se excluyen los grupos con solo 1 valor) y, por lo tanto, el Teorema del Límite Central satisface el requisito de datos distribuidos normalmente.
- Hay pocos o ningún valor atípico en los datos continuos/discretos.
A diferencia de la prueba F, que es un poco más común, igual varianzas, la prueba F de Welch no asume que las varianzas de los grupos que se comparan sean iguales. Suponer varianzas iguales conduce a resultados menos precisos cuando las varianzas no son, de hecho, iguales, y sus resultados son muy similares cuando las varianzas son realmente iguales (Tomarken y Serlin, 1986).
ANOVA clasificado
Cuando se violan los supuestos, el ANOVA sin clasificación puede dejar de ser válido. En ese caso, Stats iQ recomienda la clasificado ANOVA (también llamado “ANOVA sobre rangos”); Stats iQ transforma los datos por rango (reemplaza los valores con su orden de rango) y luego ejecuta el mismo ANOVA sobre esos datos transformados.
El ANOVA clasificado es robusto ante valores atípicos y datos no distribuidos normalmente. La transformación de rangos es un método bien establecido para protegerse contra la violación de suposiciones (un método “no paramétrico”), y se observa más comúnmente en la diferencia entre la correlación de Pearson y la de Spearman. La transformación de rango seguida de la prueba F de Welch tiene un efecto similar al de la prueba de Kruskal-Wallis (Zimmerman, 2012).
El tamaño del efecto indica si la diferencia entre los promedios de los grupos es lo suficientemente grande como para tener un significado práctico, sea o no estadísticamente significativa. Tenga en cuenta que los tamaños del efecto ANOVA clasificados y no clasificados de Stats iQ (f de Cohen) se calculan utilizando el valor F de la prueba F para varianzas iguales.
Supuestos de la prueba de pares de juegos de Howell
Stats iQ ejecuta pruebas Games-Howell independientemente del resultado de la prueba ANOVA (según Zimmerman, 2010). Stats iQ muestra pruebas por pares de Games-Howell clasificadas o no clasificadas según los mismos criterios que los utilizados para ANOVA clasificada vs. no clasificada; por lo que si ve “ANOVA clasificada” en la salida avanzada, las pruebas por pares también se clasificarán.
La prueba de Games-Howell es esencialmente una prueba t para varianzas desiguales que tiene en cuenta la mayor probabilidad de encontrar resultados estadísticamente significativos por casualidad cuando se ejecutan muchas pruebas por pares. A diferencia de la prueba b de Tukey, ligeramente más común, la prueba de Games-Howell no supone que las varianzas de los grupos que se comparan sean iguales. Suponer varianzas iguales conduce a resultados menos precisos cuando las varianzas no son, de hecho, iguales, y sus resultados son muy similares cuando las varianzas son realmente iguales (Howell, 2012).
Tenga en cuenta que, si bien la prueba por pares sin clasificación prueba la igualdad de los medio de los 2 grupos, la prueba de pares clasificados no prueba explícitamente las diferencias entre las medias o medianas de los grupos. Más bien, prueba la existencia de una tendencia general de un grupo a tener valores mayores que el otro.
Además, aunque Stats iQ no muestra los resultados de las pruebas por pares para ningún grupo con menos de 4 valores, esos grupos se incluyen en el cálculo de los grados de libertad para las otras pruebas por pares.
Consideraciones adicionales sobre el ANOVA
- Con tamaños de muestra más pequeños, los datos aún pueden inspeccionarse visualmente para determinar si de hecho tienen una distribución normal; si es así, los resultados de la prueba t sin clasificar siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta valoración puede ser difícil de realizar, por lo que Stats iQ recomienda pruebas t clasificadas de forma predeterminada para muestras pequeñas.
- Con tamaños de muestra mayores, es menos probable que los valores atípicos afecten negativamente los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir los valores atípicos como puntos más de 3 veces el rango intracuartil por encima del percentil 75 o por debajo del percentil 25.
- Datos como nivel más alto de educación completado o Orden de llegada en maratón son inequívocamente ordinales. Aunque las escalas Likert (como una escala de 1 a 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, pero es una práctica común en las ciencias sociales tratarlos como si fueran continuos (es decir, con una prueba t sin rango).
Tablas de contingencia de Stats iQ
Cuando los usuarios seleccionan 2 variables categóricas, Stats iQ evalúa si esas 2 variables están estadísticamente relacionadas. Stats iQ ejecuta la prueba exacta de Fisher cuando es posible y, en caso contrario, ejecuta la prueba de chi-cuadrado de Pearson (normalmente llamada simplemente “chi-cuadrado”).
Chi-cuadrado vs. Prueba exacta de Fisher
La prueba exacta de Fisher es imparcial siempre que se pueda ejecutar, pero es computacionalmente difícil de ejecutar si la tabla es mayor que 2 x 2 o el tamaño de la muestra es mayor que 10 000 (incluso con la computación moderna). Las pruebas de chi-cuadrado pueden tener resultados sesgados cuando los tamaños de muestra son bajos (técnicamente, cuando los recuentos de células esperados son inferiores a 5).
Afortunadamente, las dos pruebas son complementarias, ya que la prueba exacta de Fisher suele ser fácil de calcular cuando las pruebas de chi-cuadrado están sesgadas (muestras pequeñas), y cuando la prueba exacta de Fisher es difícil de calcular, la prueba de chi-cuadrado tiende a ser imparcial (muestras grandes). Dado que las tablas más grandes con muestras pequeñas aún pueden crear problemas (y Stats iQ no puede ejecutar una prueba exacta de Fisher), Stats iQ alerta a los usuarios sobre posibles complicaciones.
Residuos ajustados
Al igual que otro software estadístico, Stats iQ utiliza residuos ajustados para evaluar si una celda individual está estadísticamente significativamente por encima o por debajo de las expectativas. Básicamente, el residuo ajustado pregunta: “¿Esta celda tiene más valores de los que esperaría si no hubiera relación entre estas dos variables?”
Si tiene los datos mostrados de manera que cada columna sume 100%, puede decir “La proporción de encuestados del sector financiero y bancario que dijeron que ‘les encanta su trabajo’ es menor que la típica, en relación con los encuestados de otras industrias”.
Stats iQ muestra hasta 3 flechas, dependiendo del valor p calculado a partir del residuo ajustado. Stats iQ mostrará un número diferente de flechas dependiendo del grado de importancia del resultado. Específicamente, mostramos 1 flecha si el valor p es menor que alfa (1 – nivel de confianza), 2 flechas si el valor p es menor que alfa/5 y 3 flechas si el valor p es menor que alfa/50. Por ejemplo, si su nivel de confianza se estableció en 95%:
- valor p <= .05: 1 flecha
- valor p <= .01: 2 flechas
- valor p <= .001: 3 flechas
El cálculo del residuo ajustado y su comparación con niveles alfa específicos se puede denominar “prueba z” o “prueba z para un porcentaje de muestra ”. La literatura generalmente simplemente dice que las conclusiones se basaron en residuos ajustados.
Intervalos de confianza
Para todos los intervalos de confianza binomiales, incluidas las tablas de contingencia y los gráficos de barras de descripción de categorías, Stats iQ calcula el intervalo de confianza utilizando el intervalo de puntuación de Wilson.
Correlaciones de Stats iQ
Cuando los usuarios seleccionan 2 variables continuas o discretas, Stats iQ ejecuta una correlación para evaluar si esos 2 grupos están estadísticamente relacionados. De manera predeterminada, Stats iQ calcula el r de Pearson, el tipo de correlación más común; si no se cumplen los supuestos de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba, calculando el rho de Spearman. Además, Stats iQ utiliza la Transformación de Fisher para calcular intervalos de confianza para el coeficiente de correlación.
Supuestos de la ecuación de Pearson
Stats iQ recomienda la r de Pearson como una medida válida de correlación si se cumplen ciertos supuestos sobre los datos:
- No hay valores atípicos en los datos continuos/discretos.
- La relación entre las variables es lineal (por ejemplo, y = 2x, no y = x^2).
Stats iQ no muestra una línea de mejor ajuste cuando detecta una violación de estos supuestos.
Correlación clasificada (Rho de Spearman)
Cuando se violan los supuestos, el coeficiente r de Pearson puede dejar de ser una medida de correlación válida. En ese caso, Stats iQ recomienda la rho de Spearman; Stats iQ transforma los datos por rango (reemplaza los valores con su orden de clasificación) y luego ejecuta la correlación típica. La transformación de rangos es un método bien establecido para protegerse contra la violación de suposiciones (un método “no paramétrico”), y la transformación de rangos de Pearson a Spearman es la más común (Conover e Iman, 1981). Nótese que la rho de Spearman todavía supone que la relación entre las variables es monótona.
Consideraciones adicionales para las correlaciones
- Con tamaños de muestra mayores, es menos probable que los valores atípicos afecten negativamente los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir los valores atípicos como puntos más de 3 veces el rango intracuartil por encima del percentil 75 o por debajo del percentil 25.
- Stats iQ identifica una relación como no lineal cuando rho de Spearman > 1,1 * r de Pearson y rho de Spearman son estadísticamente significativas.
- Aunque las escalas de Likert (como una escala de 1 a 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, utilizando la r de Pearson).
Prueba t de muestras independientes
Esta prueba t sin clasificación es la forma más común de prueba t. La significancia estadística de una prueba t indica si la diferencia entre los promedios de dos grupos probablemente refleja una diferencia “real” en la población de la cual se tomaron las muestras de los grupos.
Un resultado de prueba t estadísticamente significativo es aquel en el que es poco probable que una diferencia entre dos grupos haya ocurrido por accidente o al azar. La significancia estadística está determinada por el tamaño de la diferencia entre los promedios de los grupos, el tamaño de la muestra y las desviaciones estándar de los grupos. Para fines prácticos, la significancia estadística sugiere que las dos poblaciones de las que muestra son en realidad diferentes.
Ejemplo: Digamos que le interesa saber si el estadounidense promedio gasta más que el canadiense promedio por mes en películas. Se pregunta a una muestra de 3 personas de cada país sobre su gasto en películas. Es posible que observe una diferencia en esos promedios, pero esa diferencia no es estadísticamente significativa; podría ser cuestión de suerte aleatoria de quiénes fueron seleccionados al azar lo que hace que un grupo parezca gastar más dinero que el otro. Si, en cambio, se pregunta a 300 estadounidenses y a 300 canadienses y aún así se observa una gran diferencia, es menos probable que esa diferencia se deba a que la muestra no es representativa.
Tenga en cuenta que si le preguntara a 300.000 estadounidenses y 300.000 canadienses, el resultado probablemente sería estadísticamente significativo incluso si la diferencia entre el grupo fuera solo de un centavo. El tamaño del efecto de la prueba t complementa su significancia estadística, describiendo la magnitud de la diferencia, independientemente de que la diferencia sea estadísticamente significativa o no.
Prueba T de Welch
Cuando los usuarios desean relacionar una variable binaria con una variable continua o discreta, Stats iQ ejecuta una prueba t de dos colas (todas las pruebas estadísticas en Qualtrics son de dos colas, cuando corresponde) para evaluar si alguno de los 2 grupos tiende a tener valores más altos que el otro para la variable continua/discreta. Stats iQ utiliza de forma predeterminada la prueba t de Welch, también conocida como prueba t para varianzas desiguales; si no se cumplen los supuestos de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba.
Supuestos de la prueba T de Welch
Stats iQ recomienda la prueba t de Welch (en adelante, “prueba t”) si se cumplen varias suposiciones sobre los datos:
- El tamaño de la muestra de cada grupo es superior a 15 (y, por lo tanto, el Teorema del Límite Central satisface el requisito de datos distribuidos normalmente).
- Hay pocos o ningún valor atípico en los datos continuos/discretos.
A diferencia de la prueba t ligeramente más común para varianzas iguales, la prueba t de Welch no supone que las varianzas de los dos grupos que se comparan sean iguales. La informática moderna ha hecho que esa suposición sea innecesaria. Además, suponer varianzas iguales conduce a resultados menos precisos cuando las varianzas no son iguales, y sus resultados no son más precisos cuando las varianzas son realmente iguales (Ruxton, 2006).
Prueba t clasificada
Cuando se violan los supuestos, la prueba t puede dejar de ser válida. En ese caso, Stats iQ recomienda la prueba t clasificada; Stats iQ transforma los datos por rango (reemplaza los valores con su orden de rango) y luego ejecuta la misma prueba t de Welch en esos datos transformados. La prueba t clasificada es robusta ante valores atípicos y datos no distribuidos normalmente. La transformación de rangos es un método bien establecido para protegerse contra la violación de supuestos (un método “no paramétrico”), y se observa más comúnmente en la diferencia entre la correlación de Pearson y Spearman (Conover e Iman, 1981). La transformación de rango seguida de la prueba t de Welch tiene un efecto similar al de la prueba U de Mann-Whitney, pero algo más eficiente (Ruxton, 2006; Zimmerman, 2012).
Tenga en cuenta que mientras que la prueba t prueba la igualdad de las medias de los dos grupos, la prueba t clasificada no prueba explícitamente las diferencias entre las medias o medianas de los grupos. Más bien, prueba la existencia de una tendencia general de un grupo a tener valores mayores que el otro.
Otras consideraciones para las pruebas t
- Con tamaños de muestra inferiores a 15, los datos aún pueden inspeccionarse visualmente para determinar si tienen una distribución normal; si es así, los resultados de la prueba t sin clasificación siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta valoración puede ser difícil de realizar, por lo que Stats iQ recomienda pruebas t clasificadas de forma predeterminada para muestras pequeñas.
- Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir los valores atípicos como puntos más de 3 veces el rango intracuartil por encima del percentil 75 o por debajo del percentil 25.
- Datos como “ nivel más alto de educación completado” o “Orden de finalización de un maratón” son inequívocamente ordinales. Aunque las escalas de Likert (como una escala de 1 a 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, con una prueba t sin clasificación).
Regresión
Hay dos tipos principales de ejecución de regresión en Stats iQ. Si la variable de salida es una variable numérica, Stats iQ ejecutará una regresión lineal. Si la variable de salida es una variable de categorías, Stats iQ ejecutará una regresión logística. La salida predeterminada para una regresión lineal es una combinación de importancia relativa (específicamente, pesos relativos de Johnson) y mínimos cuadrados ordinarios. Al ejecutar una regresión de “Mínimos Cuadrados Ordinarios”, Stats iQ utiliza la variación llamada “estimación M”, que es una técnica más moderna que amortigua el efecto de los valores atípicos, lo que produce resultados más precisos.
Ver más en Regresión e importancia relativa.