Regressão e importância relativa
Sobre regressão e importância relativa
A regressão mostra como várias variáveis de entrada juntas afetam uma variável de saída. Por exemplo, se as entradas “Anos como cliente” e “Tamanho da empresa” estiverem correlacionadas com o resultado “Satisfação” e entre si, você poderá usar regressão para descobrir qual das duas entradas foi mais importante para criar a “Satisfação”.A
análise de importância relativa é o método de melhor prática para regressão em dados de pesquisa e a saída padrão de regressões realizadas no Stats iQ. Importância relativa é uma extensão moderna de regressão que responde por situações em que as variáveis de entrada estão correlacionadas entre si, um problema muito comum em pesquisas de opinião (conhecido como “multicolinearidade”). Importância relativa também é conhecido como Pesos Relativos de Johnson, é uma variação da Análise de Shapley, e está intimamente relacionado com a Análise da Dominância.
Você pode encontrar as instruções abaixo sobre como configurar uma regressão no Stats iQ. Para mais orientações sobre como pensar nas partes analíticas da análise de regressão, consulte as seguintes páginas:
- Guia fácil de usar para regressão linear
- Interpretando poços residuais para melhorar sua regressão linear
- Guia fácil de usar para regressão logística
- A matriz de confusão e o Tradeoff de recordação de precisão em Regressão logística
Para regressão
linear, a importância relativa no Stats iQ segue as técnicas descritas em Lipovetsky, Stan & Conklin, Michael. (2001). Analysis of Regression in Game Theory Approach (em inglês). Modelos estocásticos aplicados em negócios e indústria. 17. 319 – 330. 10.1002/asmb.446.
Para regressão logística, Importância relativa no Stats iQ segue as técnicas descritas em Tonidandel, Scott & LeBreton, James. (2009). Determinação da importância relativa dos preditores na regressão logística: uma extensão da análise do peso relativo. Métodos de Pesquisa Organizacional – ORGAN RES METHODS. 12. 10.1177/1094428109341993.
Seleção de variáveis para cartões de regressão
A criação de um cartão de regressão permitirá que você entenda como o valor de uma variável em seu conjunto de dados é afetado pelos valores de outras.
Ao selecionar variáveis, uma variável terá uma chave por ela. Para regressão, a variável-chave será a variável de saída. Cada outra variável selecionada após a variável-chave será uma variável de entrada. Em outras palavras, estamos tentando explicar como o valor da variável de saída é controlado pelas variáveis de entrada.
Aspectos a serem considerados ao selecionar variáveis para regressão:
- Você pode modificar a variável-chave clicando no ícone de chave ao lado de qualquer variável no painel de variáveis.
- Se forem selecionadas mais variáveis do que o número de respostas que você tem, a regressão não será executada.
- Você pode selecionar até 25 variáveis de entrada. No entanto, você deve tentar selecionar 1-10 variáveis de entrada ou seus resultados podem ficar muito complicados.
Se você tiver um grande número de variáveis que gostaria de incluir em uma análise, considere as seguintes abordagens:
- Execute algumas regressões iniciais e exclua as variáveis que têm pouca importância no modelo.
- Combinar várias variáveis, por exemplo, calculando a média das mesmas.
- Se a estrutura de seus dados o permitir, você pode usar um processo de importância relativa em duas etapas, como descrito na página 341 aqui.
Exemplo: por exemplo, imagine que você tem dez medidas de satisfação com a autonomia do colaborador e dez medidas de satisfação de remuneração do funcionário.
- Medir esses grupos em duas variáveis sumárias diferentes – uma para autonomia e uma para compensação.
- Execute uma análise de importância relativa com satisfação geral como saída e as duas variáveis de resumo como sua entrada para ver qual grupo é mais importante.
- Em seguida, execute uma análise de importância relativa com satisfação global como saída e apenas as dez variáveis de autonomia como entradas para ver quais são as mais importantes dentro desse grupo.
- Execute uma análise de importância relativa com a satisfação geral como saída e somente as dez variáveis de compensação como entradas para ver quais são as mais importantes dentro desse grupo.
Depois de selecionar suas variáveis, clique em Regressão para executar uma regressão.
Qdica: No topo do cartão de regressão estará uma linha verde (e às vezes vermelha). Se você clicar nele, verá a quantidade de respostas marcadas como “Incluído” ou “Ausente” para esse cartão específico.
- Incluído: Os entrevistados que responderam à pergunta para cada pergunta ou ponto de dados usado na análise de regressão ou tiveram seus dados para variáveis de entrada ausentes imputados. Esses dados serão usados na análise de regressão.
- Em falta: Entrevistados que não têm um valor para a variável dependente de resultado. Esses dados não serão usados na análise de regressão.
Tipos de regressão
Existem dois tipos principais de execução de regressão no Stats iQ. Se a variável de saída for uma variável de números, o Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categorias, o Stats iQ executará uma regressão logística.
Mais especificamente, os tipos de regressão que o Stats iQ executará são os seguintes:
Regressão linear
A importância relativa é combinada com os mínimos quadrados ordinários (OLS). A saída vem de uma combinação das duas análises:
- Importância relativa: tudo nessa seção vem de Importância relativa, exceto o coeficiente de determinação, que vem da regressão OLS.
- Explore o modelo em detalhes: tudo nessa seção vem de Importância relativa, exceto as distribuições, que são obtidas dos dados em si.
- Analise os diagnósticos e os residuais da regressão OLS para melhorar seu modelo: tudo nesta seção vem da regressão OLS.
Regressão Logística
Regressão logística é um método de classificação binária utilizado para entender os fatores determinantes de um binário (por exemplo, Sim ou Não) resultado dado um conjunto de variáveis de entrada. Se você executar uma regressão em uma variável de saída com mais de dois grupos, o Stats iQ selecionará um grupo e agrupará os outros para torná-lo uma regressão binária (você pode alterar qual grupo está sendo analisado após a execução da regressão).
Importância relativa
Variáveis de entrada em dados de pesquisa geralmente são altamente correlacionadas umas com as outras; este é um problema chamado “Multicolinearidade”. Isso pode levar a um resultado de regressão que aumenta artificialmente a importância de uma variável e diminui a importância de outra variável correlacionada. A importância relativa é reconhecida como o método de melhores práticas para explicar isso.
Importância relativa (especificamente os pesos relativos de Johnson) não sofre com este problema e irá equilibrar adequadamente a importância das variáveis de entrada, independentemente do tipo de regressão que está sendo executada. Ele também calcula o peso relativo de cada variável (ou importância relativa), a proporção de variação explicável no resultado devido a essa variável. Isso é mostrado como uma série de porcentagens que se somam a 100%.
Ele retorna resultados semelhantes à execução de uma série de regressões, uma para cada variação das variáveis de entrada. Por exemplo, se você tivesse duas variáveis, isso faria o equivalente a executar três regressões: uma com a variável A, uma com a variável B e uma com as duas. Isso permite quantificar a importância de cada variável e aplicar essa quantificação de volta ao resultado da regressão.
Saída de regressão
Quando você executa uma regressão no Stats iQ, os resultados da análise contêm as seguintes seções:
Resumo numérico
Na parte superior do cartão está um resumo para a análise de regressão. Analisando as variáveis escolhidas, este resumo escrito explica quais variáveis são os estímulos primários vs. secundários, bem como os drivers que tiveram baixo impacto cumulativo. A tabela de dados inclui o Tamanho da amostra e o valor de R-squared.
Importância relativa
- Variáveis de baixo impacto: as variáveis que individualmente têm uma importância relativa de 10% ou menos serão agrupadas. Quando selecionada, haverá uma seção explicando a importância relativa e a significância estatística de cada variável de baixo impacto.
- Variáveis de alto impacto: cada variável de alto impacto será separada e clicável. Depois que uma variável é selecionada, abaixo do gráfico de barras, você pode visualizar a variação contabilizada e o que aconteceria se outras variáveis fossem controladas no modelo.
Detalhes adicionais do modelo
Ao selecionar Explorar o modelo em detalhes, você verá suas variáveis de entrada e sua variável de saída listadas. Suas variáveis de entrada serão fornecidas com as seguintes informações:
- Importância relativa: a proporção do coeficiente de determinação que se refere a uma variável individual. O coeficiente de determinação é a proporção da variação da variável de saída que pode ser explicada pelas variáveis de entrada neste modelo. Consulte Importância relativa para mais detalhes.
- Razão de chances: apenas relevante para regressão logística. A razão de chances para uma determinada variável de entrada indica o fator pelo qual as chances mudam para cada aumento de unidade na variável explicativa.
Exemplo: por exemplo, se a razão de chances para satisfação com o gerente for 1,1 e os grupos da variável de saída estiverem satisfeitos e não satisfeitos, para cada instância em que Satisfação com o gerente é 1 maior, as chances da variável de saída de Satisfação forem 1,1 mais altas (10% maior). Se a linha de dados for uma Categoria, como cor[azul], o coeficiente representa a mudança nas chances da variável de resposta se a variável Categorias for essa Categoria específica (azul) em vez do grupo de “linha de base” (vermelho, verde, etc.).
- Coeficiente: cada aumento de 1 unidade em uma variável de entrada está associado a um aumento do coeficiente na variável de saída. Esses coeficientes são construídos com base nos resultados da análise de importância relativa e, portanto, ajustados para multicolinearidade e não correspondem aos coeficientes que resultariam de uma regressão padrão de mínimos quadrados ordinários.
- Coeficiente padronizado: o coeficiente padronizado é o coeficiente dividido pela variância da variável de entrada. Isso coloca cada variável na mesma escala para que seus coeficientes possam ser comparados mais diretamente.
- Valor P: o valor-p é a medida da significância estatística. Valores mais baixos estão associados a menores chances de a relação ser coincidência. Para variáveis categóricas, o valor p indica a significância estatística da diferença entre um grupo e o grupo “baseline” na variável.
- Transformação: consulte Transformando variáveis.
Analisando regressão OLS
Para regressão linear, clique em Analisar diagnósticos e residuais de regressão OLS para melhorar seu modelo abaixo da variável de saída/chave para visualizar os gráficos Previsto vs. Real e Residuais. Consulte Interpretando lotes residuais para melhorar sua regressão para obter maiores informações.
Variável incluída
Juntamente com o cabeçalho superior do cartão de regressão, você verá as variáveis usadas na regressão.
Clique no nome de uma variável para abrir uma nova janela onde você pode recodificar ou agrupar valores. Clique nas setas para alternar quais são as variáveis de entrada e de saída na análise.
Se você tiver muitas variáveis envolvidas na exibição no cabeçalho, haverá um menu suspenso Variáveis explicativas, onde você poderá escolher entre as variáveis que deseja recodificar.
Adição e remoção de variáveis
Depois de criar um cartão de regressão, você pode adicionar variáveis adicionais à análise seguindo as etapas abaixo:
- Clique em Explorar o modelo em detalhes.
- Clique em Adicionar variáveis ao seu modelo na parte inferior do cartão. Isso exibirá uma lista de variáveis que ainda não foram usadas para a regressão.
- Escolha uma variável desta lista.
- Clique em Aplicar para executar a análise novamente com a nova variável incluída.
Para remover uma variável da regressão, passe o mouse sobre a variável desejada e clique no X azul no lado direito da tabela. Depois de escolher as variáveis a serem adicionadas ou removidas, certifique-se de selecionar “Aplicar” para executar o novo modelo.
Imputando variáveis
A regressão só considerará linhas em que todas as variáveis de entrada tenham dados. No entanto, muitas vezes faltam dados com a coleta de dados de pesquisa, o que pode afetar negativamente sua análise e modelo de regressão. Se você incluir apenas linhas sem dados ausentes em sua regressão, os resultados da análise poderão ser enviesados porque sua amostra não é representativa de todo o conjunto de dados.
Com a imputação, o Stats iQ preencherá automaticamente os dados ausentes com valores estimados. Quando os dados ausentes são preenchidos, você pode incluir mais de seus dados originais na análise de regressão, o que resulta em um modelo de regressão com menos viés que pode explicar melhor a variação na variável de resultado desejada.
A implementação é automática, portanto, quando você executa uma análise de regressão em um conjunto de dados com valores ausentes, seu conjunto de dados será imputado antes que qualquer cálculo seja feito.
- Clique aqui para visualizar um exemplo de conjunto de dados antes e depois da imputação de variáveis.
- Antes da imputação:
para essa regressão, “Uso de dados” é a variável de saída e “Idade”, “Serviço de Internet” e “Minutos de tempo de tela” são as variáveis de entrada.ID da linha Uso de dados Idade Serviço de Internet Tempo de tela (minutos) 1 75 39 Satélite 503 2 19 41 Fibra óptica 52 3 87 434 4 54 23 Satélite 5 14 101 6 75 Satélite 7 81 57 DSL 329 Atenção: se você executasse uma regressão sem preencher os valores ausentes, apenas as linhas 1, 2 e 7 seriam incluídas.Após imputação:
ID da linha Uso de dados Idade Serviço de Internet Tempo de tela (minutos) 1 75 39 Satélite 503 2 19 41 Fibra óptica 52 3 87 50.9 FALTANDO 434 4 54 23 Satélite 359.0 5 14 50,9 FALTANDO 101 6 75 50,9 Satélite 359.0 7 81 57 DSL 329 Qdica: “Serviço de Internet” é uma variável categórica, não numérica, portanto, o valor ausente é preenchido como “FALTA”.
Métodos de imputação
Atualmente, o Stats iQ usa os seguintes métodos de imputação:
- Categoria padrão: o Stats iQ criará um novo valor de categoria “FALTA” para preencher os dados ausentes. Este método é utilizado para variáveis categóricas.
- Média: se o Stats iQ não detectar anomalias na distribuição da variável numérica, os dados ausentes da variável serão preenchidos com o valor médio (médio). Este método é utilizado para variáveis numéricas.
- Mediana: se o Stats iQ detectar anomalias na distribuição da variável numérica, os dados ausentes da variável serão preenchidos com o valor da mediana. Este método é utilizado para variáveis numéricas.
Indicadores de imputação
Ao executar uma análise de regressão no conjunto de dados, você verá um indicador de imputação na parte superior do cartão de regressão.
Mais informações sobre a imputação estão disponíveis clicando no símbolo de informação ( i ) ao lado de Método de imputação.
Desativação de imputação
O Stats iQ aplica automaticamente a imputação a todos os cartões de regressão. Para desativar a imputação automática, clique em Impute automaticamente os dados em falta para sua amostra na parte superior do cartão de regressão.
Avisos de imputação
- Se muitos dados forem imputados, seu modelo de regressão se tornará tendencioso e não confiável. Quando mais de 50% do seu conjunto de dados for preenchido, o Stats iQ avisará você sobre tirar conclusões dos resultados da regressão.
- Quando anomalias são detectadas em qualquer uma das variáveis de entrada numéricas, o Stats iQ imputará as variáveis usando o valor mediano em vez da média. Neste cenário, o Stats iQ avisará quando você explorar o modelo em detalhes.
Transformando variáveis
Ao executar uma análise de regressão no Stats iQ, você pode descobrir que precisa melhorar seu modelo. A forma mais comum de melhorar um modelo é transformar uma ou mais variáveis, geralmente usando um “log” ou outra transformação funcional.
A transformação de uma variável muda a forma de sua distribuição. Em geral, os modelos de regressão funcionam melhor com distribuições mais simétricas em forma de sino. Tente diferentes tipos de transformações até encontrar uma que forneça esse tipo de distribuição.
Para transformar uma variável:
- Na opção Explorar o modelo em detalhes, role até a coluna Transformar.
- Clique no botão de função (f(x)) para a variável que você deseja transformar.
- Na lista, selecione a função que você gostaria de aplicar e o Stats iQ recalculará o cartão usando a nova variável transformada.
As seguintes transformações estão disponíveis no Stats iQ:
De longe, a transformação mais comum é log(x). Ele transforma uma distribuição de “potência” (como o tamanho da população da cidade) que tem muitos valores menores e um pequeno número de valores maiores em uma “distribuição normal” em forma de sino (como altura), onde a maioria dos valores são agrupados em direção ao meio.
Use log(x+1) se a variável que está sendo transformada tiver alguns valores de zero, uma vez que log(x) não pode ser calculado quando x é zero.
Para mais detalhes sobre quando transformar suas variáveis, consulte Interpretação de gráficos residuais para melhorar sua regressão linear
Outras técnicas de regressão linear disponíveis no Stats iQ
Importância relativa combinada com mínimos quadrados ordinários é a saída padrão para uma regressão linear. No entanto, existem outras opções disponíveis.
Para acessar Estimação-M, Menos quadrados ordinários e Regressão Ridge, clique na engrenagem de configurações no canto superior direito do cartão de regressão. Clicar no nome da técnica de regressão em Métodos de regressão permitirá que você altere a técnica de regressão utilizada para o cartão de regressão. Isso só pode ser feito para regressão linear.
- Estimação-M: projetado para lidar com outliers na variável de saída melhor do que os mínimos quadrados ordinários (OLS).
- Mínimos Quadrados Ordinários: Mínimos Quadrados Ordinários (OLS) é a técnica clássica de regressão. Ele é sensível a outliers e outras violações em suas suposições, por isso recomendamos métodos mais robustos, como estimativa M. Uma vez que OLS é utilizado na saída de Importância relativa padrão, você só deve selecionar esta opção se estiver interessado nas funcionalidades que ainda não foram adaptadas na saída de importância relativa: prever resultados e adicionar termos de interação.
- Regressão de Ridge: A regressão de Ridge é uma técnica semelhante à regressão OLS padrão, mas com um parâmetro de ajuste alfa. Esse parâmetro alfa ajuda a lidar com alta variância e dados que sofrem de multicolinearidade. Quando adequadamente ajustada, a regressão da crista geralmente produz melhores previsões do que a SGV devido a um melhor comprometimento entre viés e variância. No Stats iQ, você poderá escolher o parâmetro alfa ao usar a regressão de ridge.
Depois de selecionar Estimativa M, Menos quadrados ordinários ou Regressão de Ridge, você poderá ver o resultado. A saída será exibida abaixo da seção Métodos de regressão.
- Resumo numérico: na parte superior do cartão está um resumo da análise de regressão. Isso inclui o tamanho da amostra, casos ausentes, método, valor de coeficiente de determinação, erro padrão, coeficiente de variação e ajuste do modelo.
- Detalhes do coeficiente: Os resultados primários da regressão, a equação matemática, estão sob o resumo. A variável de saída/chave está à esquerda da equação. As variáveis de entrada estão no lado direito. Passar o mouse sobre uma variável exibe uma dica que explica em termos simples como essa variável contribui para a variável de saída. Aqui, você também pode inserir valores na equação matemática para estimar valores para sua variável de saída. Consulte a seção abaixo sobre estimativa de valores de variável de saída para obter mais informações.
- Diagnósticos e resíduos: o Stats iQ fornece diagnósticos para ajudar você a avaliar a precisão e a validade do seu modelo. Para saber mais, consulte Interpretando poços residuais para melhorar sua regressão linear ou a matriz de confusão e o Tradeoff de recordação de precisão em Regressão logística.
Estimar valores de variável de saída
Depois de executar uma regressão, você poderá usar a equação matemática na seção Detalhes do coeficiente para estimar os valores da variável de saída com base nos valores de entrada selecionados. No lado direito da equação, você verá suas variáveis de entrada. Você pode definir valores para cada uma de suas variáveis de entrada. No lado esquerdo da equação está sua variável de saída. Depois de inserir valores para suas variáveis de entrada, a equação calculará uma estimativa para a variável de saída com base no modelo de regressão.
- Estas variáveis de entrada são uma variável de tipo de categoria. Para inserir um valor para variáveis de categoria, clique no valor desejado na lista de opções.
- Essas variáveis de entrada são variáveis de tipo de número. Para inserir um valor para variáveis de número, clique em Inserir um valor e digite um número.
- Esta variável é a variável de saída da sua equação de regressão. Depois de selecionar valores para suas variáveis de entrada, um valor estimado para sua variável de saída será exibido ao lado de onde ela diz Estimativa.
Previsão de resultados
Normalmente, você usará a análise de regressão no Stats iQ para entender a relação entre variáveis de entrada e variáveis de saída. No entanto, assim que um modelo de regressão é criado, ele também pode ser usado para prever o valor de saída para linhas de dados onde você tem valores para as entradas.
Termos de interação e outras preocupações avançadas
Adicionando condições de interação
Ao procurar melhorar seu modelo de regressão, você pode querer adicionar termos de interação, além das variáveis de entrada existentes. Um termo de interação seria adicionado se você suspeitar que o valor de uma das variáveis de entrada modifica o modo como uma variável de entrada diferente afeta a variável de saída.
Por exemplo, talvez para pessoas com crianças presentes durante uma estadia no hotel, as pessoas mais jovens estejam mais satisfeitas do que as mais velhas, mas para as pessoas sem filhos presentes, os mais jovens estão menos satisfeitos. Isso significaria que há uma interação entre “Crianças presentes” e “Idade”.
A seleção de duas variáveis em Adicionar uma interação entre no fim da lista de variáveis de entrada no cartão adicionará um termo de interação à regressão. Esta funcionalidade só está disponível em mínimos quadrados ordinários, estimativa M e regressão Ridge.
Você pode alcançar o mesmo efeito para variáveis categóricas em uma análise de Importância relativa criando uma nova variável que combina as duas. Por exemplo, você pode combinar a variável Cor (com grupos vermelhos e verdes) com Tamanho (com grupos grandes e pequenos) para criar uma variável chamada ColorSize (com os grupos BigRed, BigGreen, SmallRed e SmallGreen).
Multicolinearidade
A multicolinearidade ocorre em um contexto de regressão quando duas ou mais das variáveis de entrada estão altamente correlacionadas entre si.
Quando duas variáveis são altamente correlacionadas, a matemática para a regressão geralmente coloca o maior valor possível em uma variável e não na outra. Isso se manifesta em um coeficiente maior para essa variável. Mas se o modelo for modificado mesmo com uma pequena quantidade (adicionando um filtro, por exemplo), a variável na qual a maior parte do valor foi colocado pode ser modificada. Isso significa que mesmo uma pequena mudança pode ter um efeito drástico no modelo de regressão.
A análise de importância relativa lida com esse problema para que você não precise se preocupar com isso. Se você preferir usar um dos outros métodos e seu modelo tiver esse problema, a presença de multicolinearidade (medida por “Fator de inflação de variação”) acionará um aviso e sugerirá que você remova uma variável ou combine variáveis por meio da média delas, por exemplo.
Mensagens de advertência
O Stats iQ avisará quando houver possíveis problemas com os resultados da regressão. Estas incluem as seguintes situações:
- As variáveis de entrada em sua regressão não são estatisticamente significativas.
- Sua transformação removeu dados da regressão.
- Duas ou mais variáveis estão altamente correlacionadas entre si e estão tornando seus resultados instáveis, ou seja, multicolinearidade.
- Os resíduos têm um padrão que sugere que o modelo poderia ser melhorado.
- Uma variável com apenas um valor foi removida automaticamente.
- O tamanho da amostra é muito baixo em relação ao número de variáveis de entrada na regressão.
- Uma variável de categorias com muitas opções de resposta foi adicionada.