Relacionar dados
Sobre a relação de dados
Relate explora as relações entre variáveis. Quando você seleciona 2 variáveis e, em seguida, seleciona Relacionar, o Stats iQ escolhe o teste estatístico apropriado com base na estrutura dos dados, executa esse teste e, em seguida, converte os resultados em uma explicação simples e clara.
Quando você seleciona 3 ou mais variáveis, o Stats iQ relaciona cada variável à 1 variável que tem a chave e, em seguida, leva as relações mais fortes para o topo. Você pode selecionar dezenas de variáveis de cada vez, para poder filtrar várias relações rapidamente.
A variável-chave
A primeira variável selecionada no painel de variáveis será a variável chave. A variável chave tem duas funções:
- Se mais de 2 variáveis forem selecionadas (como descrito acima), cada variável não chave será relacionada à 1 variável-chave (por exemplo, se você selecionar dez variáveis, a 1 variável-chave será relacionada a cada uma das outras 9, resultando em 9 cartões de relação separados).
- A variável-chave é a variável “saída” por padrão. Por exemplo, se você selecionar “Idade” e “Localização”, é possível que a “Idade” (entrada) afete a “Localização” (saída), mas não faria sentido que a “Localização” afetasse a “Idade”; nesse caso, você colocaria a chave por “Localização”. (Em muitas análises, essa distinção não importa, mas as variáveis de entrada e saída podem ser sempre trocadas após a criação do cartão.) Se você quiser que a variável-chave seja a variável de entrada em vez da variável de saída, selecione as pequenas setas no lado direito do botão Relacionar.
Relacionando variáveis de números e números
Quando você relaciona 2 variáveis numéricas (incluindo categorias recodificadas), o Stats iQ geralmente executa uma correlação e cria um gráfico de dispersão para exibir visualmente a relação entre as duas variáveis.
Se as variáveis tiverem muitos pontos sobrepostos no diagrama de dispersão, o Stats iQ mostrará um diagrama de dispersão “binado” onde retângulos mais escuros indicam um maior agrupamento de resultados. Uma linha de melhor ajuste é mostrada pelo Stats iQ quando os dados indicam que a linha será útil (especificamente, quando os dados não tiverem anomalias que possam descartar a linha).
Para ver os detalhes estatísticos de qualquer resultado da análise “relacionar”, clique em Mostrar resultados de testes estatísticos. Ao relacionar duas variáveis numéricas, o Stats iQ calcula um valor p e (para o tamanho do efeito) um r de Pearson ou um rho de Spearman. Para mais detalhes sobre como o Stats iQ escolhe o teste estatístico, visite a página Premissas do teste estatístico e detalhes técnicos.
É possível que você esteja menos interessado em saber se as variáveis estão correlacionadas e mais interessadas em qual variável é maior em média. Se as duas variáveis estiverem em escalas semelhantes, o Stats iQ fornecerá uma opção na parte superior para alternar de Correlação para Diferença pareada, o que permite comparar médias.
Relacionando variáveis de números e categorias
Quando você relaciona uma variável de números e uma variável de categorias, o Stats iQ executa um teste estatístico e cria uma tabela exibindo a contagem, a média, a mediana e a distribuição da variável de números de cada categoria.
Por exemplo, você pode querer determinar se os hóspedes em um hotel com filhos ou hóspedes sem filhos estão em média mais satisfeitos. Neste caso, a variável “Presente da criança” é categórica, e “Satisfação” é numérica.
A saída deste teste estatístico pode ser vista clicando em Mostrar resultados de testes estatísticos no cartão. Quando a variável de categorias tem apenas 2
categorias, o Stats iQ executa um teste t ou um teste t classificado. Quando tem mais, o Stats iQ executa uma ANOVA ou uma ANOVA classificada, bem como um teste post hoc de Games-Howell. Para mais detalhes sobre como o Stats iQ escolhe o teste estatístico, visite a página Premissas do teste estatístico e detalhes técnicos.
Relacionando categorias e categorias variáveis
Quando você relaciona uma variável de categorias e uma variável de categorias, o Stats iQ executa um teste estatístico e cria uma tabela de referência cruzada.
Cada coluna na tabela de referência cruzada soma 100%. No exemplo abaixo, 69% dos entrevistados em “EUA” foram “Retornando” e 31% foram “Novos”. Você pode selecionar Linha % para fazer com que as linhas somem 100%, Contagem para ver a contagem bruta em cada célula, ou Tudo % para ver a soma total da tabela em 100%. Como alternativa, você pode inverter completamente as linhas com as colunas, selecionando a ← na parte superior do resultado da análise.
No exemplo abaixo, uma vez que as colunas somam 100%, a pergunta que estamos fazendo é: “Que proporção de entrevistados dos EUA estavam retornando convidados?” Se selecionarmos Linha % (ou trocarmos as colunas e linhas), estamos perguntando “Que proporção de convidados retornavam nos EUA?” Nesse caso, qualquer uma dessas perguntas poderia ser útil para fazer. Às vezes, apenas 1 pergunta será realmente significativa.
As setas verde e vermelha dentro das células indicarão se o valor de uma célula é estatisticamente maior ou menor do que você esperava se não houvesse relação entre as variáveis. Se Coluna % for selecionado, as setas compararão o número dessa célula com os outros números nessa linha. Mais setas correspondem a um maior grau de significância estatística. Células com números altos nelas aparecem mais escuras do que outras células.
No exemplo abaixo, 75,2% é maior do que o agregado dos outros números nessa linha, de modo que o Reino Unido tem uma proporção maior do que a típica de visitantes que retornam.
A saída do teste estatístico pode ser vista clicando em Mostrar resultados de testes estatísticos no cartão. O Stats iQ realiza um teste exato de Fisher ou um teste qui-quadrado quando duas variáveis categóricas estão relacionadas. Até 3 setas serão mostradas em uma célula, dependendo do valor p calculado a partir do resíduo ajustado da célula. Para mais detalhes sobre como o Stats iQ escolhe o teste estatístico, visite a página Premissas do teste estatístico e detalhes técnicos.
Além da tabela de referência cruzada geral, o Stats iQ também gerará uma tabela de Comparação em pares, que compara os valores dos pares de categorias em uma determinada linha. Por exemplo, a tabela de referência cruzada abaixo mostra a proporção de clientes que estão retornando visitantes de vários locais. A tabela Comparação de pares mostra, por exemplo, que o Reino Unido tem uma proporção 6% maior de visitantes retornados do que os EUA. As setas verde e vermelha nas células indicam diferenças estatisticamente significativas.
Relacionando campos de seleção e variáveis de números
Quando você relaciona uma variável de caixas de seleção e uma variável de números, o Stats iQ executa um teste estatístico e cria uma tabela de resumo.
O Stats iQ exibe uma tabela com 2 linhas para cada caixa de seleção: uma para se a caixa tiver sido marcada e outra para se não tiver sido marcada. Por exemplo, se 1 das caixas de seleção representar se um participante usou ou não o pool, haverá uma linha para usar (marcado) e não usar (desmarcado) o pool, juntamente com as pontuações médias de satisfação dos entrevistados que se enquadram em qualquer um desses dois grupos.
Essa tabela, como a maioria do Stats iQ, pode ser classificada. Por exemplo, você pode querer ordenar por média ou por se a caixa foi marcada ou não. Clique no cabeçalho da coluna (por exemplo, Média) para ordenar a tabela pelos valores nessa coluna.
Embora a tabela exiba informações estatísticas como mediana e média, não existem testes estatísticos realizados nesta situação. Para realizar uma análise separada comparando as médias dos que utilizaram o pool com os que não utilizaram:
Relacionando campos de seleção e variáveis de categorias
Quando você relaciona uma variável de caixas de seleção e uma variável de categorias, o Stats iQ executa testes estatísticos e cria uma tabela de resumo.
Dependendo de qual variável tem a chave, uma das duas primeiras colunas conterá as opções de variável de categorias e a outra conterá as opções de caixa de seleção. A coluna “%” indicará a proporção do primeiro grupo de colunas que selecionou o segundo grupo de colunas.
No exemplo abaixo, a primeira linha indica o seguinte:
- Foram 1663 entrevistados que são novos clientes.
- Desses 1663 entrevistados, 359 utilizavam a piscina.
- Isso significa que 21,6% dos 1663 entrevistados usaram a piscina.
- As setas vermelhas na última coluna indicam que esta é uma proporção inferior à típica.
As setas na última coluna são calculadas da mesma forma que na tabela de referência cruzada para variáveis categóricas, discutidas anteriormente.
Relacionando variáveis de números e horas
Quando você relaciona uma variável de números e uma variável vezes, o Stats iQ cria um gráfico que mostra como a variável de números variou ao longo do tempo. Para modificar o tamanho do bin (de dias para semanas, por exemplo), clique em Tamanho da posição no depósito acima do gráfico.
Além dos bins de data, o Stats iQ exibirá uma linha para um valor estatístico específico ao longo do tempo. O valor padrão é a média. A seleção de uma opção diferente na parte superior do gráfico (mediana, mínimo ou máximo) modificará qual valor será representado como uma linha no gráfico. Ajustar o controle deslizante abaixo do gráfico restringirá o intervalo de datas exibido.
A saída deste teste estatístico pode ser vista clicando em Mostrar resultados de testes estatísticos no cartão. Os testes estatísticos de execuções do Stats iQ são os mesmos que seriam executados se a variável de tempos fosse um número variável. Em particular, isso significa que o Stats iQ executará uma correlação entre as variáveis.
Relacionando variáveis de tempos e categorias
Quando você relaciona uma variável de tempos e uma variável de categorias, o Stats iQ cria um gráfico que mostra como as contagens dessas categorias mudaram ao longo do tempo. Para modificar o tamanho do bin (de dias para semanas, por exemplo), clique em Tamanho da posição no depósito acima do gráfico.
Para este tipo de cartão, você terá a opção de selecionar o tipo de gráfico que é exibido. O tipo de gráfico é modificado quando uma opção diferente (Barra, Linha ou Área) é selecionada acima do gráfico. O gráfico exibirá os dados como Porcentagem ou Contagem, dependendo da opção selecionada na parte superior do gráfico. A porcentagem é especialmente útil para ver como a distribuição de grupos mudou ao longo do tempo. Não são executados testes estatísticos para este tipo de cartão.
Testes estatísticos no Stats iQ
O Stats iQ escolhe testes estatísticos com base nos tipos de variáveis e na estrutura das colunas que estão sendo analisadas. Para referência, esta é uma lista completa dos testes estatísticos de não regressão e das medidas de tamanho de efeito no Stats iQ:
- Teste T (2 categorias vs. numeração)
- ANOVA (3+ categorias vs. numeração)
- Testes post hoc Games-Howell (3+ categorias vs. numeração)
- Cohen’s f
- Correlação (números vs. numeração)
- Correlação de Pearson
- Correlação de Spearman
- Correlação ponto bisserial
- d de Cohen
- Teste t pareado (números vs. numeração)
- Teste Exato de Fisher (2 categorias vs. 2 categorias)
- Qui-quadrado (3+ categorias vs. categorias)
- Cramer’s V
- Teste Z (categorias vs. categorias)
- Análise de séries temporais
- Diferença em diferenças (DID, DD)
Seleção de testes estatísticos
O Stats iQ escolherá o teste estatístico correto para você, dada a compreensão dos dados (por exemplo, se uma variável é um número ou uma variável de categorias). No entanto, você pode modificar o tipo de variável para acionar um resultado diferente.
Por exemplo, você poderia relacionar um 1/0 a uma escala de 1 a 7. Se 1/0 for considerado como categórico, o resultado é um teste t. Se for considerado numérico, o resultado é uma correlação (os resultados dessas duas análises serão muito semelhantes).
O Stats iQ executará uma relação “classificada” se os dados numéricos não forem normalmente distribuídos ou tiverem valores atípicos. Se você preferir ver a relação “sem classificação” (ou vice-versa), essa opção estará disponível nos resultados do teste estatístico. Para mais detalhes sobre testes classificados, visite a página Premissas do teste estatístico e detalhes técnicos.
Problema de comparações múltiplas
O problema de comparações múltiplas pode ocorrer se você utilizar a análise “relacionar” com um grande número de variáveis não chave selecionadas. Nessa análise, é provável que você veja que cerca de 5 dos resultados são mostrados como estatisticamente significativos por meio de pura sorte, e não necessariamente uma relação significativa. Essa é uma consequência necessária da forma como a análise estatística funciona.
No Stats iQ, se você executar muitas análises de uma só vez e ver os resultados onde o valor p é estreitamente significativo (por exemplo, 0,03 em vez de 0,00004), isso é uma boa indicação de que essas correlações não são necessariamente significativas.
Traduzindo estatísticas em frases
O Stats iQ explica os resultados da análise Relate de uma forma fácil de entender, mesmo sem o conhecimento especializado de estatísticas.
Se o valor p não estiver abaixo do limite de significância estatística (o padrão para isso no Stats iQ é 0,05), as frases explicarão que não há uma relação estatisticamente significativa.
Se o valor p estiver abaixo do limite, o Stats iQ observará o tamanho do efeito. Dependendo do tamanho do efeito, o Stats iQ adicionará palavras à frase como “fraco” ou “forte” para caracterizar o relacionamento. Para mais informações sobre como o tamanho do efeito e o valor p são interpretados, clique no botão de informação (i) em Exibir resultados de testes estatísticos.
A tabela abaixo descreve como descreveríamos as relações variáveis para testes t com base no tamanho do efeito.
Tamanho do efeito | Interpretação do tamanho do efeito | Linguagem do Stats iQ |
Abaixo de 0,2 | Trivial ou sem efeito | Não há relação estatisticamente significativa entre as variáveis. |
Entre 0,2 e 0,5 | Efeito pequeno | As variáveis são estatisticamente relacionadas. Não usaríamos um adjetivo extra para caracterizar sua relação. |
Entre 0,5 e 0,8 | Efeito médio | As variáveis são estatisticamente relacionadas. Não usaríamos um adjetivo extra para caracterizar sua relação. |
Acima de 0,8 | Efeito grande | As variáveis são “fortemente” relacionadas. |
Dependendo do tipo de teste estatístico utilizado, os valores limiares do tamanho do efeito serão ligeiramente diferentes. No entanto, aplica-se o mesmo padrão geral.