Ir para o conteúdo principal
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Suposições e detalhes técnicos do teste estatístico


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ seleciona testes estatísticos com o objetivo de tornar os testes estatísticos intuitivos e livres de erros.

Esta página descreve os temas gerais da abordagem do Stats iQ, e as páginas seguintes descrevem decisões específicas para testes específicos:

Premissas básicas

Sempre que possível, Stats iQ usa como padrão os testes que têm menos suposições. Por exemplo, os testes t de amostras independentes podem ser calculados de várias maneiras, dependendo do fato de se presumir amostras ou variâncias de tamanhos iguais. Stats iQ executa o teste com o mínimo de suposições.

Além disso, Stats iQ atenua de forma inteligente as violações das suposições dos testes estatísticos. Por exemplo, os testes t em amostras relativamente pequenas exigem dados normalmente distribuídos para serem precisos. Os valores atípicos ou as distribuições não normais geram resultados enganosos. Todos os pontos de dados de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

são inferiores a todos os pontos de dados de

[11, 12, 13, 13, 14, 14, 14, 15, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

, mas um teste t de amostras independentes nesses grupos não produz uma diferença estatisticamente significativa porque o outlier 2000 viola as premissas do teste t. Stats iQ percebe a discrepância e recomenda um teste t classificado, que produz uma diferença muito clara entre os grupos.

Transformações de classificação

Stats iQ usa frequentemente o método de transformação de classificação para executar testes não paramétricos quando são detectadas violações das suposições de testes paramétricos. A transformação de classificação do Stats iQ substitui os valores por sua ordem de classificação – por exemplo,

[86, 95, 40] é transformado em [2, 3, 1]

– e, em seguida, executa o teste paramétrico típico nos dados transformados. Os valores empatados recebem a classificação média dos valores empatados, portanto,

[11, 35, 35, 52] torna-se [1, 2,5, 2,5, 4].

Mais comumente encontrados na diferença entre as correlações de Pearson e Spearman, os testes transformados em rank são robustos para distribuições não normais e outliers, e são conceitualmente mais simples do que usar testes não paramétricos um pouco mais comuns.

ANOVA

Quando os usuários selecionam uma variável categórica com 3 ou mais grupos e uma variável contínua ou discreta, Stats iQ executa uma ANOVA unidirecional (teste F de Welch) e uma série de testes “post hoc” em pares (testes de Games-Howell). A ANOVA unidirecional testa uma relação geral entre as duas variáveis, e os testes de pares testam cada par possível de grupos para ver se um grupo tende a ter valores mais altos do que o outro.

Premissas do teste F de Welch ANOVA

Stats iQ recomenda um teste F de Welch não classificado se várias suposições sobre os dados forem válidas:

  • O tamanho amostra é maior que 10 vezes o número de grupos no cálculo (grupos com apenas 1 valor são excluídos) e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos.
  • Há poucas ou nenhuma exceção nos dados contínuos/discretos.

Diferentemente do teste F, um pouco mais comum, para variâncias iguais, o teste F de Welch não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Tomarken e Serlin, 1986).

ANOVA Classificado

Quando as suposições são violadas, a ANOVA não classificada pode não ser mais válida. Nesse caso, Stats iQ recomenda a ANOVA classificada (também chamada de “ANOVA on ranks”); o Stats iQ transforma os dados em rankings (substitui os valores por sua ordem de classificação) e, em seguida, executa a mesma ANOVA nesses dados transformados.

A ANOVA classificada é robusta para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman. A transformação de classificação seguida pelo teste F de Welch tem efeito semelhante ao do teste de Kruskal-Wallis (Zimmerman, 2012).

O tamanho do efeito indica se a diferença entre as médias dos grupos é grande o suficiente para ter significado prático, se é ou não estatisticamente significativa. Observe que os tamanhos de efeito da ANOVA classificada e não classificada do Stats iQ(f de Cohen) são calculados usando o valor F do teste F para variâncias iguais.

Premissas do teste de pares de Games-Howell

Stats iQ executa testes de Games-Howell independentemente do resultado do teste ANOVA (conforme Zimmerman, 2010). Stats iQ mostra testes pareados de Games-Howell não classificados ou classificados com base nos mesmos critérios usados para ANOVA classificada vs. não classificada; portanto, se você vir “Ranked ANOVA” na saída avançada, os testes pareados também serão classificados.

O Games-Howell é essencialmente um teste t para variâncias desiguais que leva em conta a maior probabilidade de encontrar resultados estatisticamente significativos por acaso ao executar muitos testes em pares. Diferentemente do teste b de Tukey, um pouco mais comum, o teste de Games-Howell não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Howell, 2012).

Observe que, enquanto o teste de pares sem classificação testa a igualdade das médias dos dois grupos, o teste de pares com classificação não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.

Além disso, embora Stats iQ não mostre resultados dos testes pareados para qualquer grupo com menos de 4 valores, esses grupos são incluídos no cálculo dos graus de liberdade para os outros testes pareados.

Considerações adicionais sobre ANOVA

  1. Com tamanhos amostra menores, os dados ainda podem ser inspecionados visualmente para determinar se são de fato distribuídos normalmente; se forem, resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa apreciação pode ser difícil de ser feita, portanto, Stats iQ recomenda testes t classificados por padrão para amostras pequenas.
  2. Com amostra maiores, é menos provável que os outliers afetem negativamente resultados. Stats iQ usa a “barreira externa” de Tukey para definir outliers como pontos mais de 3 vezes o intervalo intraquartil acima do 75º ou abaixo do 25º ponto do percentil.
  3. Dados como o nível mais alto de educação concluído ou a ordem de chegada na maratona são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, com um teste t não classificado).

Tabelas de contingência Stats iQ

Quando os usuários selecionam duas variáveis categóricas, Stats iQ avalia se essas duas variáveis estão estatisticamente relacionadas. Stats iQ executa o teste exato de Fisher quando possível e, caso contrário, executa o teste de qui-quadrado de Pearson (normalmente chamado apenas de “qui-quadrado”).

Qui-quadrado vs. Teste Exato de Fisher

O teste exato de Fisher é imparcial sempre que pode ser executado, mas é computacionalmente difícil de executar se a tabela for maior que 2 x 2 ou o tamanho amostra for maior que 10.000 (mesmo com a computação moderna). Os testes de qui-quadrado podem ter resultados tendenciosos quando os tamanhos amostra são baixos (tecnicamente, quando a contagem esperada de células é inferior a 5).

Felizmente, os dois testes são complementares, pois o teste exato de Fisher normalmente é fácil de calcular quando os testes de qui-quadrado são tendenciosos (amostras pequenas) e, quando o teste exato de Fisher é difícil de calcular, o qui-quadrado tende a ser imparcial (amostras grandes). Como tabelas maiores com amostras pequenas ainda podem criar problemas (e Stats iQ não pode executar um teste exato de Fisher), Stats iQ alerta os usuários sobre possíveis complicações.

Residuais ajustados

Como outros softwares estatísticos, Stats iQ usa resíduos ajustados para avaliar se uma célula individual está ou não estatisticamente acima ou abaixo das expectativas. Essencialmente, o resíduo ajustado pergunta: “Essa célula tem mais valores do que eu esperaria se não houvesse relação entre essas duas variáveis?”

Se os dados forem exibidos de forma que cada coluna some 100%, você poderá dizer: “A proporção de entrevistados do setor financeiro/bancário que disseram que ‘adoram seu trabalho’ é menor do que o normal, em relação aos entrevistados de outros setores.”

Stats iQ mostra até 3 setas, dependendo do valor de p calculado a partir do resíduo ajustado. Stats iQ mostrará um número diferente de setas, dependendo do grau de significância do resultado. Especificamente, mostramos 1 seta se o valor p for menor que alfa (1 – nível confiança), 2 setas se o valor p for menor que alfa/5 e 3 setas se o valor p for menor que alfa/50. Por exemplo, se seu nível confiança foi definido como 95%:

  • valor de p <= 0,05: 1 seta
  • p-value <= .01: 2 setas
  • p-value <= .001: 3 setas

O cálculo do resíduo ajustado e sua comparação com níveis alfa específicos podem ser rotulados como um “teste z” ou um “teste z para uma porcentagem amostra ” Normalmente, a literatura simplesmente diz que as conclusões foram baseadas em resíduos ajustados.

Intervalos de confiança

Para todos os intervalos de confiança binomiais, incluindo tabelas de contingência e gráficos de barras do Category Describe, Stats iQ calcula o intervalo de confiança usando o Intervalo de Pontuação de Wilson.

Correlações Stats iQ

Quando os usuários selecionam duas variáveis contínuas ou discretas, Stats iQ executa uma correlação para avaliar se esses dois grupos estão estatisticamente relacionados. Por padrão, Stats iQ Stats iQ calcula o r de Pearson, o tipo mais comum de correlação; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste, calculando o rho de Spearman. Além disso, Stats iQ usa a Transformação de Fisher para calcular os intervalos de confiança do coeficiente de correlação.

Premissas do r de Pearson

Stats iQ recomenda o r de Pearson como uma medida válida de correlação se determinadas suposições sobre os dados forem atendidas:

  • Não há outliers nos dados contínuos/discretos.
  • A relação entre as variáveis é linear (por exemplo, y = 2x, e não y = x^2).

Stats iQ não exibe uma linha de melhor ajuste quando detecta uma violação dessas premissas.

Correlação classificada (Spearman’s Rho)

Quando as suposições são violadas, o r de Pearson pode não ser mais uma medida válida de correlação. Nesse caso, Stats iQ recomenda o rho de Spearman; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa a correlação típica. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e a transformação de classificação de Pearson para Spearman é a mais comum (Conover e Iman, 1981). Observe que o rho de Spearman ainda pressupõe que a relação entre as variáveis é monotônica.

Considerações adicionais sobre correlações

  1. Com amostra maiores, é menos provável que os outliers afetem negativamente resultados. Stats iQ usa a “barreira externa” de Tukey para definir outliers como pontos mais de 3 vezes o intervalo intraquartil acima do 75º ou abaixo do 25º ponto do percentil.
  2. Stats iQ identifica uma relação como não linear quando o rho de Spearman > 1,1 * O r de Pearson e o rho de Spearman são estatisticamente significativos.
  3. Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, usando o r de Pearson).

Teste T de amostras independentes

Esse teste t não classificado é a forma mais comum de teste t. A significância estatística de um teste t indica se a diferença entre as médias de dois grupos provavelmente reflete uma diferença “real” na população da qual os grupos foram amostrados.

Um resultado de teste t estatisticamente significativo é aquele em que é improvável que uma diferença entre dois grupos tenha ocorrido por acidente ou aleatoriamente. A significância estatística é determinada pelo tamanho da diferença entre as médias dos grupos, o tamanho amostra e os desvios padrão dos grupos. Para fins práticos, a significância estatística sugere que as duas populações das quais fazemos amostra são realmente diferentes.

Exemplo: Digamos que você esteja interessado em saber se o americano médio gasta mais do que o canadense médio por mês em filmes. Você pergunta a uma amostra de 3 pessoas de cada país sobre seus gastos com filmes. Você pode observar uma diferença nessas médias, mas essa diferença não é estatisticamente significativa; pode ser a sorte aleatória de quem você amostrou aleatoriamente que faz com que um grupo pareça gastar mais dinheiro do que o outro. Se, em vez disso, você perguntar a 300 americanos e 300 canadenses e ainda observar uma grande diferença, é menos provável que essa diferença seja causada pelo fato de a amostra não ser representativa.

Observe que, se você perguntasse a 300.000 americanos e 300.000 canadenses, o resultado provavelmente seria estatisticamente significativo, mesmo que a diferença entre os grupos fosse de apenas um centavo. O tamanho do efeito do teste t complementa sua significância estatística, descrevendo a magnitude da diferença, independentemente de a diferença ser ou não estatisticamente significativa.

Teste T de Welch

Quando os usuários desejam relacionar uma variável binária a uma variável contínua ou discreta, Stats iQ executa um teste t bicaudal (todos os testes estatísticos no Qualtrics são bicaudais, quando aplicável) para avaliar se um dos dois grupos tende a ter valores mais altos do que o outro para a variável contínua/discreta. Stats iQ usa como padrão o teste t de Welch, também conhecido como teste t para variâncias desiguais; se as premissas desse teste não forem atendidas, Stats iQ recomenda uma versão classificada do mesmo teste.

Premissas do teste T de Welch

Stats iQ recomenda o teste t de Welch (doravante denominado “teste t”) se várias suposições sobre os dados forem válidas:

  • O tamanho amostra de cada grupo é superior a 15 (e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos).
  • Há poucas ou nenhuma discrepância nos dados contínuos/discretos.

Diferentemente do teste t ligeiramente mais comum para variâncias iguais, o teste t de Welch não pressupõe que as variâncias dos dois grupos que estão sendo comparados sejam iguais. A computação moderna tornou essa suposição desnecessária. Além disso, presumir variâncias iguais leva a resultados menos precisos quando as variâncias não são iguais, e seus resultados não são mais precisos quando as variâncias são realmente iguais (Ruxton, 2006).

T-Test Classificado

Quando as suposições são violadas, o teste t pode não ser mais válido. Nesse caso, Stats iQ recomenda o teste t classificado; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa o mesmo teste t de Welch nos dados transformados. O teste t classificado é robusto para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido de proteção contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman (Conover e Iman, 1981). A transformação de classificação seguida pelo teste t de Welch tem efeito semelhante ao do teste U de Mann-Whitney, mas é um pouco mais eficiente (Ruxton, 2006; Zimmerman, 2012).

Observe que, enquanto o teste t testa a igualdade das médias dos dois grupos, o teste t classificado não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.

Outras considerações sobre os testes T

  1. Com tamanhos amostra inferiores a 15, os dados ainda podem ser inspecionados visualmente para determinar se são normalmente distribuídos; se forem, resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa apreciação pode ser difícil de ser feita, portanto, Stats iQ recomenda testes t classificados por padrão para amostras pequenas.
  2. Com amostra maiores, é menos provável que os outliers afetem negativamente resultados. Stats iQ usa a “barreira externa” de Tukey para definir outliers como pontos mais de 3 vezes o intervalo intraquartil acima do 75º ou abaixo do 25º ponto do percentil.
  3. Dados como ” nível mais alto de educação concluído” ou “Ordem de chegada em uma maratona” são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, com um teste t não classificado).

Regressão

Há dois tipos principais de regressão executados no Stats iQ. Se a variável de saída for uma variável numérica, Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categoria, Stats iQ executará uma regressão logística. A saída padrão para uma regressão linear é uma combinação de Importância relativa (especificamente, Pesos relativos de Johnson) e Mínimos quadrados ordinários. Ao executar uma regressão de “Mínimos Quadrados Ordinários”, Stats iQ usa a variação chamada “M-estimation”, que é uma técnica mais moderna que amortece o efeito de outliers, levando a resultados mais precisos.

Veja mais em Regression & Relative Importance.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.