Saltar al contenido principal
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Supuestos de pruebas estadísticas y detalles técnicos


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ selecciona pruebas estadísticas con el objetivo de que las pruebas estadísticas sean intuitivas y libres de errores.

En esta página se describen los temas generales del enfoque de Stats iQ y a continuación se describen decisiones específicas para pruebas específicas:

Suposiciones Básicas

Siempre que sea posible, Stats iQ toma por defecto las pruebas que tienen menos supuestos. Por ejemplo, las pruebas t de muestras independientes se pueden calcular de varias maneras, dependiendo de si se asumen muestras o desviaciones de igual tamaño. Stats iQ ejecuta la prueba con los menos supuestos.

Además, Stats iQ mitiga inteligentemente las violaciones de las suposiciones de las pruebas estadísticas. Por ejemplo, las pruebas t en muestras relativamente pequeñas requieren datos normalmente distribuidos para ser exactos. Los valores atípicos o las distribuciones no normales crean resultados engañosos. Cada punto de datos de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

es inferior a todos los puntos de datos de

[11, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 17, 18, 19, 2000]más

pero una prueba t de muestras independientes sobre esos grupos no viola estadísticamente la diferencia t de 2000 porque no viola la diferencia t 2000. Stats iQ observa el valor atípico y recomienda una prueba T clasificada en su lugar, lo que produce una diferencia muy clara entre los grupos.

Clasificar transformaciones

Stats iQ utiliza frecuentemente el método de transformación de rango para ejecutar pruebas no paramétricas cuando se detectan violaciones de supuestos de prueba paramétrica. La transformación de rango de Stats iQ sustituye los valores por su orden de clasificación, por ejemplo

[86, 95, 40] se transforma en [2, 3, 1]

; a continuación, ejecuta la prueba paramétrica típica en los datos transformados. A los valores vinculados se les da el rango promedio de los valores empatados, por lo que

[11, 35, 35, 52] se convierte en [1, 2.5, 2.5, 4].

Más comúnmente encontrado en la diferencia entre las correlaciones de Pearson y Spearman, las pruebas transformadas en rangos son robustas a distribuciones no normales y valores atípicos, y son conceptualmente más simples que el uso de pruebas no paramétricas un poco más comunes.

ANOVA

Cuando los usuarios seleccionan 1 variable categórica con 3 o más grupos y 1 variable continua o discreta, Stats iQ ejecuta un ANOVA unidireccional (prueba F de Welch) y una serie de pruebas “post hoc” por parejas (pruebas de Games-Howell). El ANOVA unidireccional prueba una relación global entre las 2 variables, y las pruebas por pares prueban cada par posible de grupos para ver si un grupo tiende a tener valores más altos que el otro.

Supuestos del ensayo F ANOVA de Welch

Stats iQ recomienda una prueba F de Welch no clasificada si existen varias suposiciones sobre los datos:

  • El tamaño de la muestra es superior a 10 veces el número de grupos en el cálculo (se excluyen los grupos con solo 1 valor) y, por lo tanto, el teorema de límite central cumple el requisito de datos distribuidos normalmente.
  • Hay pocos valores atípicos o ninguno en los datos continuos/discretos.

A diferencia de la prueba F ligeramente más común para variaciones iguales, la prueba F de Welch no asume que las variaciones de los grupos que se comparan son iguales. Suponiendo desviaciones iguales se obtienen resultados menos precisos cuando las desviaciones no son en realidad iguales, y sus resultados son muy similares cuando las desviaciones son realmente iguales (Tomarken y Serlin, 1986).

ANOVA clasificado

Cuando se violan supuestos, es posible que el ANOVA no clasificado ya no sea válido. En ese caso, Stats iQ recomienda el ANOVA clasificado (también llamado “ANOVA en rangos”); Stats iQ rank-transforma los datos (reemplaza valores por su orden de clasificación) y luego ejecuta el mismo ANOVA en los datos transformados.

El ANOVA clasificado es robusto para valores atípicos y datos no distribuidos normalmente. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y es más comúnmente visto en la diferencia entre Pearson y Spearman correlación. La transformación de rango seguida por la prueba F de Welch es similar en efecto a la prueba de Kruskal-Wallis (Zimmerman, 2012).

El tamaño del efecto indica si la diferencia entre los promedios de los grupos es lo suficientemente grande como para tener un significado práctico, si es o no estadísticamente significativa. Tenga en cuenta que los tamaños de efecto ANOVA clasificados y no clasificados de Stats iQ (Cohen’s f) se calculan utilizando el valor F de la prueba F para variaciones iguales.

Supuestos de la prueba por pares Games-Howell

Stats iQ ejecuta pruebas Games-Howell independientemente del resultado de la prueba ANOVA (según Zimmerman, 2010). Stats iQ muestra las pruebas por parejas de Games-Howell no clasificadas o clasificadas según los mismos criterios que las utilizadas para ANOVA clasificado vs. no clasificado; por lo tanto, si ve “ANOVA clasificado” en el resultado avanzado, también se clasificarán las pruebas por parejas.

El Games-Howell es esencialmente una prueba t para variaciones desiguales que dan cuenta de la mayor probabilidad de encontrar resultados estadísticamente significativos por casualidad cuando se ejecutan muchas pruebas por pares. A diferencia de la prueba b de Tukey un poco más común, la prueba de Games-Howell no asume que las varianzas de los grupos que se comparan son iguales. Suponiendo desviaciones iguales se obtienen resultados menos precisos cuando las desviaciones no son, de hecho, iguales, y sus resultados son muy similares cuando las desviaciones son realmente iguales (Howell, 2012).

Tenga en cuenta que mientras que las pruebas por parejas no clasificadas para la igualdad de los medios de los 2 grupos, la prueba por parejas clasificadas no comprueba explícitamente las diferencias entre las medias o medianas de los grupos. Más bien, prueba una tendencia general de un grupo a tener valores más grandes que el otro.

Además, aunque Stats iQ no muestra los resultados de las pruebas por parejas para ningún grupo con menos de 4 valores, esos grupos se incluyen en el cálculo de los grados de libertad para las otras pruebas por parejas.

Consideraciones ANOVA adicionales

  1. Con tamaños de muestra más pequeños, los datos aún se pueden inspeccionar visualmente para determinar si de hecho se distribuyen normalmente; si es así, los resultados de la prueba T no clasificada siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta evaluación puede ser difícil de realizar, por lo que Stats iQ recomienda realizar pruebas T clasificadas de forma predeterminada para muestras pequeñas.
  2. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  3. Los datos como el nivel más alto de educación completado o el orden de finalización en maratón son inequívocamente ordinales. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, con una prueba t no clasificada).

Tablas de contingencia de Stats iQ

Cuando los usuarios seleccionan 2 variables categóricas, Stats iQ evalúa si esas 2 variables están relacionadas estadísticamente. Stats iQ ejecuta la prueba exacta de Fisher cuando es posible, y de lo contrario ejecuta la prueba de chi-cuadrado de Pearson (típicamente llamada “chi-cuadrado”).

Chi cuadrado vs. Prueba exacta de Fisher

La prueba exacta de Fisher es imparcial siempre que se puede ejecutar, pero es computacionalmente difícil de ejecutar si la tabla es mayor de 2 x 2 o el tamaño de la muestra es mayor de 10.000 (incluso con computación moderna). Las pruebas de chi-cuadrado pueden tener resultados sesgados cuando los tamaños de las muestras son bajos (técnicamente, cuando los recuentos de células esperados están por debajo de 5).

Afortunadamente, las 2 pruebas son complementarias en que la prueba exacta de Fisher es típicamente fácil de calcular cuando las pruebas de chi-cuadrado están sesgadas (muestras pequeñas), y cuando la prueba exacta de Fisher es difícil de calcular, chi-cuadrado tiende a ser imparcial (muestras grandes). Insomuch, ya que las tablas más grandes con muestras pequeñas todavía pueden crear problemas (y Stats iQ no puede ejecutar una prueba exacta de Fisher), Stats iQ alerta a los usuarios de posibles complicaciones.

Residuos ajustados

Al igual que otro software estadístico, Stats iQ utiliza residuos ajustados para evaluar si una celda individual está estadísticamente significativamente por encima o por debajo de las expectativas. Esencialmente, el residual ajustado pregunta: “¿Esta celda tiene más valores de los que cabría esperar si no hubiera relación entre estas 2 variables?”

Si los datos se muestran de tal manera que cada columna suma el 100%, puede decir “La proporción de encuestados de Finanzas/Banca que dijeron que les encanta su trabajo” es menor que el típico, en comparación con los encuestados de otros sectores”.

Stats iQ muestra hasta 3 flechas, según el valor p calculado a partir del residual ajustado. Stats iQ mostrará un número diferente de flechas en función del grado de importancia del resultado. Específicamente, mostramos 1 flecha si el valor p es menor que alfa (1 – nivel de confianza), 2 flechas si el valor p es menor que alfa/5, y 3 flechas si el valor p es menor que alfa/50. Por ejemplo, si su nivel de confianza se ha fijado en el 95%:

  • Valor p <= .05: 1 flecha
  • Valor p <= .01: 2 flechas
  • Valor p <= .001: 3 flechas

El cálculo del residuo ajustado y su comparación con niveles alfa específicos pueden etiquetarse como «prueba z» o «prueba z para un porcentaje de muestra». La literatura más típicamente simplemente dice que las conclusiones se basaron en residuos ajustados.

Intervalos de confianza

Para todos los intervalos de confianza binomial, incluidas las tablas de contingencia y en los gráficos de barras Descripción de categoría, Stats iQ calcula el intervalo de confianza utilizando el intervalo de puntuación de Wilson.

Correlaciones de Stats iQ

Cuando los usuarios seleccionan 2 variables continuas o discretas, Stats iQ ejecuta una correlación para evaluar si esos 2 grupos están relacionados estadísticamente. Stats iQ predetermina el cálculo de la r de Pearson, el tipo más común de correlación; si no se cumplen las suposiciones de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba, calculando el rho de Spearman. Además, Stats iQ utiliza la transformación Fisher para calcular intervalos de confianza para el coeficiente de correlación.

Supuestos de la r de Pearson

Stats iQ recomienda la r de Pearson como medida válida de correlación si se cumplen ciertas suposiciones sobre los datos:

  • No hay valores extremos en los datos continuos/discretos.
  • La relación entre las variables es lineal (por ejemplo, y = 2x, no y = x^2).

Stats iQ no muestra una línea con el mejor ajuste cuando detecta una infracción de estas suposiciones.

Correlación clasificada (Rho de Spearman)

Cuando se violan las suposiciones, la r de Pearson puede ya no ser una medida válida de correlación. En ese caso, Stats iQ recomienda rho de Spearman; el rango Stats iQ transforma los datos (sustituye los valores por su orden de clasificación) y luego ejecuta la correlación típica. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y la transformación de rango de Pearson a Spearman es la más común (Conover e Iman, 1981). Nótese que el rho de Spearman todavía asume que la relación entre las variables es monotónica.

Consideraciones adicionales para correlaciones

  1. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  2. Stats iQ identifica una relación como no lineal cuando el rho &gt de Spearman; 1.1 * El r de Pearson y el rho de Spearman son estadísticamente significativos.
  3. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, usando la r de Pearson).

Prueba T de muestras independientes

Esta prueba t no clasificada es la forma más común de prueba t. La significación estadística de una prueba t indica si la diferencia de 2 promedios de dos grupos refleja muy probablemente una diferencia «real» en la población de la que se tomaron muestras de los grupos.

Un resultado de la prueba t estadísticamente significativo es aquel en el que es poco probable que se haya producido una diferencia entre 2 grupos por accidente o aleatoriamente. La significación estadística viene determinada por el tamaño de la diferencia entre los promedios del grupo, el tamaño de la muestra y las desviaciones estándar de los grupos. A efectos prácticos, la significación estadística sugiere que las 2 poblaciones de las que tomamos muestras son realmente diferentes.

Ejemplo: Digamos que le interesa si el estadounidense promedio gasta más que el canadiense promedio por mes en películas. Le preguntas a una muestra de 3 personas de cada país acerca de su gasto en películas. Puede observar una diferencia en esos promedios, pero esa diferencia no es estadísticamente significativa; podría ser una suerte aleatoria de quién muestreó aleatoriamente lo que hace que un grupo parezca gastar más dinero que el otro. Si en su lugar se pregunta a 300 estadounidenses y 300 canadienses y todavía ve una gran diferencia, es menos probable que esa diferencia se deba a que la muestra no es representativa.

Tenga en cuenta que si preguntara a 300.000 estadounidenses y 300.000 canadienses, el resultado probablemente sería estadísticamente significativo incluso si la diferencia entre el grupo era solo un centavo. El tamaño del efecto de la prueba t complementa su significación estadística, describiendo la magnitud de la diferencia, tanto si la diferencia es estadísticamente significativa como si no.

Prueba T de Welch

Cuando los usuarios desean relacionar una variable binaria con una variable continua o discreta, Stats iQ ejecuta una prueba t de dos colas (todas las pruebas estadísticas en Qualtrics son de dos colas, si corresponde) para evaluar si alguno de los 2 grupos tiende a tener valores más altos que el otro para la variable continua/discreta. Stats iQ utiliza por defecto la prueba t de Welch, también conocida como prueba t para variaciones desiguales; si no se cumplen los supuestos de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba.

Supuestos de la Prueba T de Welch

Stats iQ recomienda la prueba t de Welch (en lo sucesivo, “prueba t”) si existen varias hipótesis sobre los datos:

  • El tamaño de la muestra de cada grupo es superior a 15 (y, por lo tanto, el teorema del límite central satisface el requisito de datos distribuidos normalmente).
  • Hay pocos valores atípicos o ninguno en los datos continuos/discretos.

A diferencia de la prueba t ligeramente más común para variaciones iguales, la prueba t de Welch no asume que las variaciones de los 2 grupos que se comparan son iguales. La informática moderna ha hecho innecesaria esa suposición. Además, asumir variaciones iguales conduce a resultados menos precisos cuando las variaciones no son iguales, y sus resultados no son más precisos cuando las variaciones son realmente iguales (Ruxton, 2006).

Prueba t clasificada

Cuando se violan supuestos, la prueba t puede dejar de ser válida. En ese caso, Stats iQ recomienda la prueba T clasificada; la clasificación de Stats iQ transforma los datos (sustituye los valores por su orden de clasificación) y luego ejecuta la misma prueba t de Welch en los datos transformados. La prueba T clasificada es robusta para valores atípicos y datos no distribuidos normalmente. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y es más comúnmente visto en la diferencia entre Pearson y Spearman correlación (Conover e Iman, 1981). La transformación de rango seguida por la prueba t de Welch es similar en efecto a la prueba U de Mann-Whitney, pero algo más eficiente (Ruxton, 2006; Zimmerman, 2012).

Obsérvese que mientras que la prueba t comprueba la igualdad de los medios de los 2 grupos, la prueba t clasificada no comprueba explícitamente las diferencias entre los medios o medianas de los grupos. Más bien, prueba una tendencia general de un grupo a tener valores más grandes que el otro.

Otras consideraciones para las pruebas T

  1. Con tamaños de muestra inferiores a 15, los datos aún pueden inspeccionarse visualmente para determinar si se distribuyen normalmente; si es así, los resultados de las pruebas T no clasificadas siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta evaluación puede ser difícil de realizar, por lo que Stats iQ recomienda realizar pruebas T clasificadas de forma predeterminada para muestras pequeñas.
  2. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  3. Los datos como “Nivel más alto de educación completado” o “Orden de finalización en una maratón” son inequívocamente ordinales. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, con una prueba t no clasificada).

Regresión

Existen 2 tipos principales de ejecución de regresión en Stats iQ. Si la variable de salida es una variable numérica, Stats iQ ejecutará una regresión lineal. Si la variable de salida es una variable de categoría, Stats iQ ejecutará una regresión logística. La salida predeterminada para una regresión lineal es una combinación de Importancia relativa (específicamente, Ponderaciones relativas de Johnson) y Mínimos cuadrados ordinarios. Al ejecutar una regresión de “mínimos cuadrados ordinarios”, Stats iQ utiliza la variación llamada “estimación M”, que es una técnica más moderna que amortigua el efecto de los valores atípicos, lo que lleva a resultados más precisos.

Ver más en Regresión & Importancia relativa.

Preguntas frecuentes

Muchas de las páginas de este sitio han sido traducidas del inglés original utilizando la traducción automática. Aunque en Qualtrics hemos realizado nuestra diligencia debida para obtener las mejores traducciones automáticas posibles, la traducción automática nunca es perfecta. El texto original en inglés se considera la versión oficial, y cualquier discrepancia entre el inglés original y las traducciones automáticas no son legalmente vinculantes.