Premissas de teste estatístico e detalhes técnicos
O Stats iQ seleciona testes estatísticos com o objetivo de tornar os testes estatísticos intuitivos e sem erros.
Esta página descreve temas abrangentes da abordagem do Stats iQ e o seguinte descreve decisões específicas para testes específicos:
Pressuposições básicas
Sempre que possível, o Stats iQ assume como padrão testes que têm menos suposições. Por exemplo, os testes t de amostras independentes podem ser calculados de várias formas, dependendo de se amostras ou desvios igualmente dimensionados são assumidos. O Stats iQ executa o teste com o mínimo de suposições.
Além disso, o Stats iQ atenua de forma inteligente as violações das suposições dos testes estatísticos. Por exemplo, testes t em amostras relativamente pequenas requerem dados normalmente distribuídos para serem precisos. Anomalias ou distribuições não normais criam resultados enganosos. Todos os datapoint de
[1, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 9, 10]
é menor do que todos os datapoint em
[11, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 18, 19, 2000]
mas um teste t de amostras independentes sobre esses grupos, pois a diferença estatisticamente n O Stats iQ observa o outlier e recomenda um teste t classificado, o que gera uma diferença muito clara entre os grupos.
Classificar transformações
O Stats iQ usa frequentemente o método de transformação de classificação para executar testes não paramétricos quando são detectadas violações de suposições de teste paramétrico. A transformação de classificação do Stats iQ substitui os valores pela ordenação de classificação, por exemplo
[86, 95, 40] é transformado em [2, 3, 1]
— e, em seguida, executa o teste paramétrico típico nos dados transformados. Os valores vinculados recebem a classificação média dos valores vinculados, assim
[11, 35, 35, 52] passa a ser [1, 2,5, 2,5, 4].
Mais comumente encontrados na diferença entre as correlações de Pearson e Spearman, os testes de transformação de postos são robustos a distribuições não normais e outliers, e são conceitualmente mais simples do que o uso de testes não paramétricos ligeiramente mais comuns.
ANOVA
Quando os usuários selecionam 1 variável categórica com 3 ou mais grupos e 1 variável contínua ou discreta, o Stats iQ executa uma ANOVA unidirecional (teste F de Welch) e uma série de testes “post hoc” em pares (testes Games-Howell). Os testes one-way ANOVA para uma relação geral entre as duas variáveis, e os testes pareados testam cada possível par de grupos para ver se um grupo tende a ter valores mais altos do que o outro.
Pressuposições do Teste F de Welch ANOVA
O Stats iQ recomenda um teste F de Welch não classificado se várias suposições sobre os dados forem mantidas:
- O tamanho da amostra é maior que 10 vezes o número de grupos no cálculo (grupos com apenas 1 valor são excluídos) e, portanto, o Teorema do Limite Central satisfaz o requisito para dados distribuídos normalmente.
- Existem poucos ou nenhum valor atípico nos dados contínuos/discretos.
Ao contrário do teste F ligeiramente mais comum para variâncias iguais, o teste F de Welch não assume que as variâncias dos grupos que estão sendo comparados são iguais. Assumindo que variações iguais levam a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são realmente iguais (Tomarken e Serlin, 1986).
ANOVA Classificado
Quando as suposições são violadas, a ANOVA sem classificação pode não ser mais válida. Nesse caso, o Stats iQ recomenda a ANOVA classificada (também chamada de “ANOVA on ranks”); o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa a mesma ANOVA nesses dados transformados.
A ANOVA classificada é robusta para dados atípicos e não distribuídos normalmente. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e é mais comumente visto na diferença entre a correlação de Pearson e Spearman. Transformação de classificação seguida pelo teste F de Welch é semelhante em efeito ao Teste de Kruskal-Wallis (Zimmerman, 2012).
O tamanho do efeito indica se a diferença entre as médias dos grupos é grande o suficiente para ter significado prático, seja ou não estatisticamente significativo. Observe que os tamanhos de efeito ANOVA classificados e não classificados do Stats iQ (f de Cohen) são calculados usando o valor F do teste F para desvios iguais.
Pressuposições do Games-Howell Pairwise Test
O Stats iQ executa os testes de Games-Howell independentemente do resultado do teste ANOVA (conforme Zimmerman, 2010). O Stats iQ mostra testes em pares não classificados ou classificados de Games-Howell com base nos mesmos critérios usados para ANOVA classificada vs. não classificada; assim, se você visualizar “ANOVA classificada” na saída avançada, os testes em pares também serão classificados.
O Games-Howell é essencialmente um teste t para variâncias desiguais que responde pela probabilidade aumentada de encontrar resultados estatisticamente significativos por acaso ao executar muitos testes pareados. Ao contrário do teste b de Tukey um pouco mais comum, o teste de Games-Howell não assume que as variâncias dos grupos que estão sendo comparados são iguais. Assumir desvios iguais leva a resultados menos precisos quando as variações não são de fato iguais, e seus resultados são muito semelhantes quando as variações são realmente iguais (Howell, 2012).
Observe que, enquanto o teste de pares não classificados testa a igualdade das médias dos 2 grupos, o teste de pares classificados não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, testa uma tendência geral de um grupo ter valores maiores do que o outro.
Além disso, enquanto o Stats iQ não mostra resultados de testes em pares para qualquer grupo com menos de 4 valores, esses grupos são incluídos no cálculo dos graus de liberdade para os outros testes em pares.
Considerações adicionais de ANOVA
- Com tamanhos de amostra menores, os dados ainda podem ser inspecionados visualmente para determinar se estão de fato normalmente distribuídos; se for, os resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa avaliação pode ser difícil de ser feita, por isso o Stats iQ recomenda que os testes t sejam classificados por padrão para amostras pequenas.
- Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
- Dados como o nível mais alto de escolaridade concluído ou a ordem de conclusão na maratona são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-los como se fossem contínuos (isto é, com um teste t não classificado).
Tabelas de contingência do Stats iQ
Quando os usuários selecionam duas variáveis categóricas, o Stats iQ avalia se essas duas variáveis estão estatisticamente relacionadas. O Stats iQ executa o teste exato de Fisher quando possível e, caso contrário, executa o teste Qui-quadrado de Pearson (normalmente chamado de “Qui-quadrado”).
Qui-quadrado vs. Teste Exato de Fisher
O teste exato de Fisher é imparcial sempre que pode ser executado, mas é computacionalmente difícil de executar se a tabela é maior que 2 x 2 ou o tamanho da amostra é maior que 10.000 (mesmo com a computação moderna). Os testes Qui-quadrado podem ter resultados enviesados quando os tamanhos de amostra são baixos (tecnicamente, quando as contagens de células esperadas são inferiores a 5).
Felizmente, os dois testes são complementares em que o teste exato de Fisher é tipicamente fácil de calcular quando os testes qui-quadrado são enviesados (amostras pequenas), e quando o teste exato de Fisher é difícil de calcular, o qui-quadrado tende a ser imparcial (amostras grandes). Insomuch, já que tabelas maiores com amostras pequenas ainda podem criar problemas (e o Stats iQ não pode executar o teste exato de Fisher), o Stats iQ alerta os usuários para possíveis complicações.
Residuais ajustados
Como outro software estatístico, o Stats iQ usa resíduos ajustados para avaliar se uma célula individual está estatisticamente ou não significativamente acima ou abaixo das expectativas. Essencialmente, o resíduo ajustado pergunta: “Esta célula tem mais valores do que eu esperaria se não houvesse relação entre essas duas variáveis?”
Se você tiver os dados exibidos de modo que cada coluna some 100%, você pode dizer “A proporção de entrevistados de Finanças/Bancos que disseram “Amar o trabalho” é menor do que a típica, em relação aos entrevistados de outros setores.”
O Stats iQ mostra até 3 setas, dependendo do valor p calculado a partir do residual ajustado. O Stats iQ mostrará um número diferente de setas, dependendo do grau de significância do resultado. Especificamente, mostramos 1 seta se o valor p for menor que alfa (1 – nível de confiança), 2 setas se o valor p for menor que alfa/5 e 3 setas se o valor p for menor que alfa/50. Por exemplo, se seu nível de confiança foi definido como 95%:
- valor-p <= .05: 1 seta
- valor-p <= .01: 2 setas
- valor-p <= .001: 3 setas
O cálculo do resíduo ajustado, e sua comparação com níveis alfa específicos, podem ser rotulados como “teste z” ou “teste z para uma porcentagem da amostra”. A literatura mais tipicamente diz simplesmente que as conclusões foram baseadas em resíduos ajustados.
Intervalos de confiança
Para todos os intervalos de confiança binomiais, incluindo tabelas de contingência e em gráficos de barras Descrição de categoria, o Stats iQ calcula o intervalo de confiança usando o Intervalo de pontuação Wilson.
Correlações do Stats iQ
Quando os usuários selecionam duas variáveis contínuas ou discretas, o Stats iQ executa uma correlação para avaliar se esses dois grupos estão estatisticamente relacionados. O Stats iQ usa como padrão o cálculo do r de Pearson, o tipo de correlação mais comum; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste, calculando o rho de Spearman. Além disso, o Stats iQ usa a Transformação de Fisher para calcular intervalos de confiança para o coeficiente de correlação.
Premissas do r de Pearson
O Stats iQ recomenda o r de Pearson como uma medida válida de correlação se certas suposições sobre os dados forem atendidas:
- Não existem anomalias nos dados contínuos/discretos.
- A relação entre as variáveis é linear (por exemplo, y = 2x, não y = x^2).
O Stats iQ não exibe uma linha de melhor ajuste quando detecta uma violação dessas suposições.
Correlação Classificada (Rho de Spearman)
Quando as suposições são violadas, o r de Pearson pode não ser mais uma medida válida de correlação. Nesse caso, o Stats iQ recomenda o rho de Spearman; o Stats iQ transforma os dados (substitui valores pela ordem de classificação) e, em seguida, executa a correlação típica. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e a transformação de postos de Pearson para Spearman é a mais comum (Conover e Iman, 1981). Note-se que o rho de Spearman ainda assume que a relação entre as variáveis é monotônica.
Considerações adicionais para correlações
- Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
- O Stats iQ identifica uma relação como não linear quando o rho > de Spearman; 1.1 * o r de Pearson e o rho de Spearman são estatisticamente significativos.
- Embora as escalas Likert (como uma escala de 1 a 7, onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, usando o r de Pearson).
Amostras Independentes T-Test
Este teste t não classificado é a forma mais comum de teste t. A significância estatística do teste t indica se a diferença 2 médias de dois grupos provavelmente reflete uma diferença “real” na população a partir da qual os grupos foram amostrados.
Um resultado estatisticamente significativo do teste t é aquele em que uma diferença entre dois grupos é improvável de ter ocorrido por acidente ou aleatoriamente. A significância estatística é determinada pelo tamanho da diferença entre as médias do grupo, o tamanho da amostra e os desvios padrão dos grupos. Para fins práticos, a significância estatística sugere que as duas populações das quais a nossa amostra é realmente diferente.
Exemplo: Digamos que você esteja interessado em saber se o americano médio gasta mais do que a média canadense por mês em filmes. Você pergunta a uma amostra de 3 pessoas de cada país sobre seus gastos com filmes. Você pode observar uma diferença nessas médias, mas essa diferença não é estatisticamente significativa; pode ser sorte aleatória de quem você amostrou aleatoriamente que faz com que um grupo pareça gastar mais dinheiro do que o outro. Se, em vez disso, você perguntar 300 americanos e 300 canadenses e ainda ver uma grande diferença, essa diferença é menos provável de ser causada pela amostra não ser representativa.
Note que se você perguntasse 300.000 americanos e 300.000 canadenses, o resultado provavelmente seria estatisticamente significativo, mesmo que a diferença entre o grupo fosse apenas um centavo. O tamanho do efeito do teste t complementa sua significância estatística, descrevendo a magnitude da diferença, se a diferença é ou não estatisticamente significativa.
Teste T de Welch
Quando os usuários querem relacionar uma variável binária a uma variável contínua ou discreta, o Stats iQ executa um teste t bicaudal (todos os testes estatísticos no Qualtrics são bicaudais, quando aplicável) para avaliar se um dos dois grupos tende a ter valores mais altos do que o outro para a variável contínua/discreta. O Stats iQ assume como padrão o teste t de Welch, também conhecido como teste t para variâncias desiguais; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste.
Pressuposições do T-Test da Welch
O Stats iQ recomenda o teste t de Welch (doravante denominado “teste t”) se várias premissas sobre os dados forem mantidas:
- O tamanho da amostra de cada grupo é superior a 15 (e, portanto, o Teorema do Limite Central satisfaz o requisito para dados normalmente distribuídos).
- Existem poucos ou nenhum valor atípico nos dados contínuos/discretos.
Ao contrário do teste t ligeiramente mais comum para variâncias iguais, o teste t de Welch não assume que as variâncias dos dois grupos que estão sendo comparados são iguais. A computação moderna tornou essa suposição desnecessária. Além disso, supondo que desvios iguais levam a resultados menos precisos quando as variâncias não são iguais, e seus resultados não são mais precisos quando as variâncias são realmente iguais (Ruxton, 2006).
T-Test Classificado
Quando as suposições são violadas, o teste t pode não ser mais válido. Nesse caso, o Stats iQ recomenda o teste t classificado; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa o mesmo teste t de Welch sobre esses dados transformados. O teste t classificado é robusto para dados atípicos e não distribuídos normalmente. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e é mais comumente visto na diferença entre a correlação de Pearson e Spearman (Conover e Iman, 1981). A transformação da classificação seguida pelo teste t de Welch é semelhante em efeito ao Teste U de Mann-Whitney, mas um pouco mais eficiente (Ruxton, 2006; Zimmerman, 2012).
Nota-se que enquanto o teste t testa a igualdade das médias dos 2 grupos, o teste t classificado não testa explicitamente as diferenças entre os grupos médias ou medianas. Em vez disso, testa uma tendência geral de um grupo ter valores maiores do que o outro.
Outras considerações para testes T
- Com tamanhos de amostra abaixo de 15, os dados ainda podem ser inspecionados visualmente para determinar se estão normalmente distribuídos; se for, os resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa avaliação pode ser difícil de ser feita, por isso o Stats iQ recomenda que os testes t sejam classificados por padrão para amostras pequenas.
- Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
- Dados como “Nível educacional mais alto concluído” ou “Ordem de conclusão em uma maratona” são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-los como se fossem contínuos (isto é, com um teste t não classificado).
Regressão
Há dois tipos principais de execução de regressão no Stats iQ. Se a variável de saída for uma variável de números, o Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categorias, o Stats iQ executará uma regressão logística. A saída padrão para uma regressão linear é uma combinação de Importância relativa (especificamente, Pesos relativos de Johnson) e Menos quadrados ordinários. Ao executar uma regressão “Mínimos Quadrados Ordinários”, o Stats iQ usa a variação chamada “Estimativa M”, que é uma técnica mais moderna que amortece o efeito de outliers, levando a resultados mais precisos.
Veja mais em Regression & Relative Importance.