Scripts R pré-compostos
Sobre scripts R pré-compostos
R é uma linguagem de programação estatística que é amplamente usada para análise flexível e poderosa. Ao usar o R Coding no Stats iQ, você pode selecionar entre vários scripts de análise para tornar o uso de R mais fácil e eficiente.
Selecionar um script para código R
- Selecione quais variáveis você gostaria de analisar. Consulte Selecionando variáveis de dataframe para código R para obter mais informações.
- Clique em Avançado.
- Clique em Código R.
- Selecione um script. Para mais informações sobre as opções para análises, consulte as seções abaixo.
- Clique em Seguinte.
- Confirme as variáveis que você selecionou. Se você quiser alterar uma variável, clique no menu suspenso e selecione uma nova.
- Edite o nome das variáveis, se desejar. Para mais informações, consulte Nomeando variáveis de dataframe para código R.
Qdica: você pode fazer modificações nas variáveis selecionadas diretamente desta janela. Para editar os valores de recodificação, clique em Editar. Se você quiser excluir a variável, clique no ícone ( – ). Se você quiser adicionar uma nova variável, clique em Adicionar variável na parte inferior esquerda.
- Quando terminar de editar suas variáveis de dataframe, clique em Criar cartão de código.
Navegação em scripts de código R pré-compostos
Seu script será colado na seção de código do cartão de código R. Este código conterá informações juntamente com os comandos para gerar a análise que você selecionou. Para executar sua análise, clique em Executar tudo. Os resultados serão exibidos na caixa de saída à direita.
Você pode editar suas variáveis de dataframe ou adicionar um filtro à análise clicando nas opções no canto superior direito. Clique no menu de três pontos para adicionar notas ao seu cartão de código, copie a análise ou abra o cartão em tela cheia.
SHORTCUTS
Os atalhos de teclado podem ser usados para navegar com mais eficiência no cartão Código R. Clique em Atalhos para obter uma lista de ações possíveis.
PACOTES
A codificação R no Stats iQ vem pré-instalada com centenas dos pacotes R mais populares usados para análise. Clique na guia Pacotes na metade direita do cartão para ver a lista de pacotes disponíveis. Para obter mais informações sobre o uso de pacotes, consulte Codificação R no Stats iQ.
Índice de confiabilidade
A confiabilidade da escala avalia em que medida os itens de uma escala de vários itens podem medir um construto de forma confiável. Em outras palavras, se a mesma coisa for medida usando o mesmo conjunto de perguntas, haverá resultados confiáveis semelhantes? Em caso afirmativo, há confiança de que quaisquer mudanças que vemos no futuro são devidas a mudanças na população pesquisada ou intervenções que foram feitas para melhorar a pontuação.
MEDIDAS DE CONFIABILIDADE INTERPRETENTES
As medidas de confiabilidade da escala caem entre 0 e 1 e são essencialmente uma correlação agregada entre todos os itens da escala.
O alfa de Cronbach, uma medida de confiabilidade amplamente utilizada, muitas vezes subestima a confiabilidade devido a certas suposições. O McDonald’s omega, uma alternativa recomendada, evita essas falhas. Usamos o ômega do McDonald’s por padrão, mas o alfa de Cronbach ainda é amplamente aceito.
Não há uma única maneira correta de interpretar o número resultante, mas nossa regra de ouro preferida para ambos omega é delineada abaixo:
Menos de 0,65 | Inaceitável |
0,65 | Aceitável |
0,8 | Muito bom |
Se sua escala confiável for inaceitável, há algumas opções para corrigir seu conjunto de dados:
- Remova todos os itens que estão baixando o ômega ou alfa.
- É possível que existam duas construções distintas sendo medidas. Se esse for o caso, separar as variáveis em dois grupos e executar essa análise em cada um levaria a escores de confiabilidade superiores aos da análise inicial. Você pode explorar isso revisando a matriz de correlação no resultado ou usando o script Análise Fatorial Exploratória para ver quais agrupamentos naturalmente caem fora dos dados.
- Em última análise, pode ser necessário modificar e executar a pesquisa novamente. Os itens que apresentam baixa correlação com os demais podem precisar ser esclarecidos ou retrabalhados, ou outros itens podem precisar ser adicionados.
Resultados muito altos (por exemplo, 0,95) também podem indicar um problema com a escala, geralmente você ainda pode ter uma escala que é muito confiável sem ter tantos itens. Nesse caso, recomendamos remover os itens menos úteis da escala e executar novamente a análise.
ESTATÍSTICAS INTERPRETENTES DE NÍVEL DE ITEM
O script executa primeiro uma medida de confiabilidade geral e, em seguida, executa uma iteração para cada variável. O objetivo da análise de confiabilidade por item é compreender quais itens são mais úteis para a construção da escala. O Stats iQ exibirá uma tabela semelhante a esta:
No geral, o McDonald’s Omega: 0,71
N | Média | Correlação item-total | McDonald’s Omega se removido | |
A1 | 2784 | 4.59 | 0.31 | 0.72 |
A2 | 2773 | 4.80 | 0.56 | 0.69 |
A3 | 2774 | 4.60 | 0,59 | 0.61 |
… | … | … | … | … |
- O objetivo geral é ter um Omega mais alto do McDonald’s com um número menor de itens. Então, se um pesquisador estava criando uma nova escala, eles provavelmente iriam querer remover A1, uma vez que o ômega é realmente maior sem ele.
- Os demais itens que diminuiriam a confiabilidade se retirados caberiam ao pesquisador determinar. Por exemplo, se um pesquisador está preocupado com a fadiga da pesquisa, ele pode permitir uma maior diminuição da confiabilidade ao decidir remover uma variável.
- A Correlação Item-Total é a correlação entre esse item e a média de todos os outros. Correlação item-total baixa sugere que a variável não é representativa o suficiente do construto subjacente. A regra mais comum é suspeitar de qualquer coisa com uma Correlação Item-Total de 0,3 ou inferior, especialmente se você tiver muitos itens, o que inflaciona artificialmente a métrica de confiabilidade.
Se você optar por remover um item, deve executar novamente todas as outras estatísticas antes de decidir se remove outro item. No Stats iQ, isso significa apenas remover a variável de todo o cartão – o restante ocorrerá automaticamente.
MATRIZ DE CORRELAÇÃO INTERNA DE ITEM
A Matriz de Correlação Interitens mostra a correlação entre cada variável na análise e entre si. Por exemplo, se uma variável estiver muito correlacionada com outra (por exemplo, 0,9), essas perguntas podem ser redundantes e removê-las terá apenas um pequeno impacto na sua confiabilidade.
A correlação interitem média é a média dos números na matriz. Números mais altos sugerem que alguns itens podem ser redundantes e podem ser removidos. Geralmente, as variáveis devem estar na faixa de 0,2 a 0,4.
MAIS RECURSOS
- A análise de confiabilidade no Stats iQ é executada pela função compRelSem() do pacote semTools R. Várias configurações avançadas estão descritas na documentação. Não é necessário usar ou entender essas configurações para executar uma análise de confiabilidade.
- A matriz de correlação é executada pela função corrplot() do pacote corrplot R. Uma variedade de configurações e personalizações avançadas são descritas na documentação e neste passo a passo.
Confiabilidade entre avaliadores
A confiabilidade interavaliadores (IRR) é usada para avaliar em que medida dois ou mais avaliadores concordam em sua avaliação. Por exemplo, três codificadores diferentes podem avaliar um comentário de texto como tendo tido opinião positiva ou neutra ou negativa; IRR descreve o quanto eles concordaram uns com os outros.
MEDIDAS DE CONFIABILIDADE INTERRADA
A TIR é avaliada usando métricas ligeiramente diferentes com base na estrutura dos dados. Por exemplo, uma análise da interconfiabilidade de dois avaliadores usará uma métrica ligeiramente diferente da interconfiabilidade de três avaliadores.
O Stats iQ selecionará automaticamente a métrica apropriada para seus dados.
INTERPRETENDO RESULTADOS
A métrica Kappa ou ICC é o resultado primário, entre 0 e 1, e indica o quão bem correlacionados os avaliadores estão. Sugerimos as faixas abaixo para interpretação do Kappa:
0,75 a 1 | Excelente |
0,6 a 0,75 | Boa |
0,4 a 0,6 | Razoável |
0,4 ou inferior | Ruim |
MAIS RECURSOS
- Essa análise de confiabilidade é executada pelas funções do pacote IRR R. Várias configurações avançadas estão descritas na documentação. Não é necessário utilizar ou compreender essas configurações para executar esta análise.
Análise de fator exploratório
A análise fatorial exploratória (AFE) é uma técnica estatística que ajuda você a reduzir um grande número de variáveis em um conjunto menor e mais gerenciável de “fatores” resumidos. Isso os torna significativamente mais fáceis de interpretar, comunicar e executar outras análises (por exemplo, análise de regressão). A EFA normalmente segue este conjunto de etapas:
- Diagnóstico: executar e interpretar um conjunto de diagnósticos que determinam se os dados são adequados para análise fatorial. As variáveis devem estar correlacionadas o suficiente entre si para formar agrupamentos significativos, mas não tão altamente correlacionadas que sejam essencialmente redundantes.
- Fatores de escolha: determinar o número de fatores presentes nos dados. Os fatores são os agrupamentos de variáveis semelhantes em conjunto. Por padrão, o script R usará um critério calculado e executado automaticamente.
- Fatores de nomeação: Você será deixado com vários fatores após a execução da EFA que melhor representam os temas-chave nos dados. É útil rotular esses fatores com nomes legíveis por humanos que capturem seu significado.
- Medidas associadas & métricas: a análise fatorial é executada com o número de fatores da etapa anterior. O resultado é um conjunto de agrupamentos de variáveis juntamente com alguma descrição estatística do cálculo alíquota.
O resultado é um conjunto de fatores nomeados e seus itens de pesquisa de componentes. Esses fatores podem servir como uma estrutura conceitual para outras análises, ou podem ser aplicados de volta aos dados.
DIAGNÓSTICAS
O script executa primeiro uma série de diagnósticos para garantir que os dados são adequados para EFA:
- Tamanho da amostra: Geralmente, uma proporção de 10:1 de respostas para itens é sugerida. Por exemplo, se você tiver 10 perguntas, deverá ter pelo menos 100 entrevistados.
- Teste de Esfericidade de Bartlett: Este teste avalia se os itens estão correlacionados o suficiente para serem agrupados de forma útil em fatores. Se isso falhar, provavelmente existem vários itens que não se correlacionam o suficiente com os outros. Você pode considerar soltar itens da sua análise que não se correlacionam com outras pessoas ou adicionar mais itens relacionados à pesquisa.
- Determinante: O determinante avalia se os itens são altamente correlacionados demais para serem agrupados de forma útil em fatores. Se este diagnóstico falhar, existem provavelmente itens que são muito semelhantes entre si para se separar em fatores. Pense em editar os itens da pesquisa para serem mais distintos.
- Medida Kaiser-Meyer-Olkin (KMO): esta medida verifica se os itens da pesquisa têm o suficiente em comum para agrupá-los em fatores significativos. Aprovar este diagnóstico significa que as respostas em sua pesquisa têm muito em comum e podem ser agrupadas corretamente. Caso contrário, os itens não se agrupam em categorias. Se esse diagnóstico falhar, convém revisar os itens da pesquisa para capturar mais temas semelhantes e considerar a remoção de itens que não mostram um relacionamento claro com outras pessoas.
FATORES DE ESCOLHA
O ponto da AFE é resumir muitas variáveis em um número relativamente pequeno que são úteis para análise, então você pode precisar executar a análise fatorial várias vezes com diferentes números de fatores para encontrar um agrupamento que funcione para você. O script EFA irá sugerir o número de fatores usando seus autovalores.
O script EFA emitirá um scree plot, que mostra os autovalores das variáveis em ordem decrescente. Você pode examinar o gráfico para ver quantos fatores ocorrem antes do “cotovelo” no gráfico, após o que a adição de mais fatores é menos útil.
NOMEM SEUS FATORES
Após a execução da AFE, cada variável é atribuída a um fator. É útil dar a cada fator um nome que lhe dê uma abreviatura para falar sobre eles, o que torna suas descobertas mais acessíveis. O objetivo aqui é simplificar seus dados complexos em alguns temas compreensíveis.
Aqui estão algumas diretrizes para nomear seus fatores:
- Seja descritivo: tente capturar o tema comum que resume as variáveis do grupo.
- Mantenha simples: seus nomes de fatores devem ser fáceis de entender e comunicar. Evite jargões técnicos ou frases excessivamente complexas.
- Considere seu público: os nomes dos fatores devem fazer sentido para as pessoas que usarão sua análise. Por exemplo, “Limpeza” seria significativo tanto para os gerentes quanto para os hóspedes do hotel.
- Consistência: se sua pesquisa ou conjunto de dados se estender por diferentes domínios ou assuntos, verifique se os nomes dos fatores estão consistentes.
MEDIDAS ASSOCIADAS & METRICS
O Factor Loadings Table é uma das principais saídas da EFA. A carga fatorial para um determinado par de fatores variáveis é a correlação entre essa variável e o fator. Se uma variável tiver uma alta carga fatorial para um determinado fator, isso significa que a pergunta está fortemente ligada a esse fator.
Univocidade é a parte da variância que é exclusiva da variável específica e não compartilhada com outras variáveis. Os valores de exclusividade variam de 0 a 1 com valores mais altos, indicando que a variável é única e não se encaixa bem em nenhum dos fatores. .
Geralmente, recomenda-se remover variáveis se suas cargas fatoriais estiverem acima de 0,3 ou se sua unicidade estiver acima de 0,7.
USANDO SEUS RESULTADOS
A análise fatorial é um processo iterativo, portanto, você pode precisar executá-la várias vezes com diferentes números de fatores para encontrar um agrupamento que funcione para você. Para a maioria dos pesquisadores, a principal conclusão é encontrar agrupamentos de fatores que podem fornecer novas informações sobre seus dados, mas você pode usar esses fatores como novas variáveis em análises subsequentes – como regressão ou análise de cluster. Por exemplo, você pode criar uma nova variável para cada fator que utiliza o valor médio de todas as variáveis que estão agrupadas nele.
Matriz de correlação
A matriz de correlação é uma tabela que mostra a correlação entre cada par de variáveis fornecidas. Esta tabela usa o r de Pearson por padrão para medir a correlação, mas você pode alterá-la para o rho de Spearman, se desejar.
Você pode editar os parâmetros da função corrplot() para modificar a tabela e torná-la mais legível. Para mais informações, você pode visualizar o R walkthrough e a documentação oficiais.