Sonia Vieira: October 2019

Thursday, October 31, 2019

Regressão Múltipla Usando SPSS: Interprete os Resultados Como Especialista

Você rodou uma regressão linear múltipla no SPSS e… foi recebido com uma avalanche de tabelas? Calma, isso é mais comum do que parece — mas a boa notícia é que você não precisa se perder nos números.

Neste post, vamos direto ao ponto e te mostrar as três tabelas mais importantes da saída do SPSS que todo mundo que analisa regressão múltipla precisa entender. Com explicações claras e exemplo prático, você vai aprender a interpretar os valores de R, R², ANOVA e os coeficientes como um especialista — mesmo que esteja começando agora.

Resumo do Modelo

Para proceder ao cálculo da regressão linear múltipla, vamos utilizar o exemplo dado na postagem anterior (Regressão linear múltipla no SPSS). Os dados estão repetidos na tabela apresentada abaixo.

Com esses dados, obtivemos a primeira tabela de interesse, isto é, a tabela Resumo do Modelo. Esta tabela fornece R, R², R² ajustado e o erro padrão da estimativa, que pode ser usado para determinar quão bem um modelo de regressão se ajusta aos dados.

O valor R é o coeficiente de correlação múltipla. É uma medida da qualidade da previsão da variável dependente, que neste exemplo é o peso da criança, (WGT), dado em libras. Um valor de 0,883 indica bom nível de previsão.

O valor R² é o coeficiente de determinação. É a proporção de variação na variável dependente explicada pelas variáveis independentes. O valor R² = 0,780 mostra que as variáveis independentes explicam 78,0% da variação da variável dependente, WGT (peso). Você também precisa saber interpretar "R²ajustado", mas vamos explicar isso em próxima postagem.

Tabela de análise de variância (ANOVA)

A segunda tabela de interesse é a tabela de análise de variância, ou tabela de ANOVA (do inglês, ANOVA table), mostrada em seguida.

O teste F (indicado como "Z" na tabela ANOVA) avalia o ajuste do modelo de regressão. A tabela mostra que as variáveis independentes (AGE e HGT) predizem significativamente a variável dependente (WGT), já que p < 0,05. Em outras palavras, o modelo de regressão se ajusta bem aos dados.

Coeficientes de regressão

A terceira tabela de interesse é aquela que apresenta os coeficientes de regressão. Veja em seguida.

Coeficientes não padronizados indicam quanto a variável dependente varia com cada variável independente, mantendo-se as demais constantes. Considere o efeito da idade, neste exemplo: o coeficiente não padronizado para idade (AGE) é igual a 2,050. Isso significa que, para cada aumento de um ano na idade, espera-se um aumento de 2,050 libras no peso (WGT) (lembre-se de que peso está medido em libras).

O teste t, apresentado na tabela, testa se os coeficientes (padronizados ou não) são iguais a zero na população. Se p < 0,05, conclui-se que os coeficientes são significantemente diferentes de zero. Os valores do teste t e seus respectivos valores p estão localizados nas colunas "t" e "Sig", respectivamente. Observe que o coeficiente de altura (HGT) é significante.

Conclusão

Foi ajustada uma regressão linear múltipla para prever o peso em função da altura e da idade de crianças. Obteve-se:

✅ Apenas a variável altura (HGT) foi significativa ao nível de 5%. A variável idade (AGE), com p = 0,056, pode ser considerada significativa em um nível próximo ao convencional de 5%. Veja a figura na abertura deste post.

Observação

A amostra é muito pequena e composta por dados fictícios. Portanto, as conclusões não são válidas na prática. Este exemplo foi utilizado apenas para facilitar os cálculos e fornecer uma referência importante ao leitor (KLEINBAUM e KUPPER). Os dados não foram convertidos para o sistema métrico decimal porque resultariam em valores não inteiros, o que dificultaria a digitação.

Monday, October 28, 2019

Ajuste Sua Primeira Regressão Linear Mltipla no SPSS

Análise de regressão

A análise de regressão permite estabelecer um modelo para descrever a relação entre duas ou mais variáveis. Trata-se de uma técnica que possibilita fazer previsões sobre uma variável – chamada variável resposta (dependente) – com base em informações obtidas de outras variáveis – conhecidas como variáveis explicativas (também chamadas de explanatórias, preditoras ou independentes).

Regressão linear simples

A regressão linear simples é denominada “linear” porque o modelo ajustado é uma reta, e “simples” porque há apenas uma variável explicativa. A regressão linear simples é definida pelo modelo:

Nesse modelo, os pares de variáveis Y_i e X_i (i=1, 2, ..., n) representam a variável resposta e a variável explicativa, respectivamente; b₀ e b₁ são parâmetros a serem estimados a partir dos dados e e_ij(i=1, 2, ..., n) são erros aleatórios.

Por exemplo, ao analisar um conjunto de dados de peso e altura de jovens que se apresentaram para o serviço militar, pode-se supor que peso seja função linear da altura. Ajustando uma reta a esses dados, obtém-se as estimativas b₀e b₁dos parâmetros b₀e b₁da regressão.

O termo b₀é o coeficiente linear, também conhecido como intercepto (intercept, em inglês) e o termo b₁é o coeficiente angular, também conhecido como inclinação (slope, em inglês). A reta ajustada aos dados, considerada a melhor, no sentido de possuir propriedades estatísticas desejáveis, é chamada de reta de regressão. Muitos autores também a denominam reta de mínimos quadrados, em referência ao método estatístico utilizado para calcular as estimativas.

Regressão linear múltipla

A regressão linear múltipla (multiple linear regression) é uma técnica estatística que usa diversas variáveis explicativas para prever a variável resposta. Logo, a regressão linear múltipla estabelece o modelo para uma relação linear entre a variável resposta (dependente) e diversas variáveis explicativas (independentes).

Nessa fórmula, Y_i (i =1, 2,...,n) são as n observações da variável resposta (dependente) e X_i₁, X_i₂,...,X_ik são as n observações das k variáveis explicativas (independentes). O coeficiente b₀é o intercepto e b₁, b₂,...,b_ksão os coeficientes angulares correspondentes a cada variável explicativa. Os termos e_isão os erros do modelo.

Para ajustar um modelo de regressão linear múltipla, algumas pressuposições deve ser atendidas.

Pressuposições

🔸A variável resposta (dependente) deve ser contínua.

🔸Deve haver uma relação linear entre a variável resposta e cada uma das variáveis explicativas.

🔸As observações das variáveis explicativas devem ser independentes entre si.

🔸Os desvios devem ter distribuição normal de média zero e variância s².

Vamos mostrar, por meio de um exemplo, como ajustar uma regressão linear múltipla a um conjunto de dados utilizando o SPSS (Statistical Package for Social Sciences). Em outra postagem, explicaremos como interpretar os resultados.

Exemplo

Considere uma amostra aleatória de 12 crianças atendidas em uma clínica. O peso, a altura e a idade dessas crianças estão apresentados abaixo, já formados para inserção no SPSS. O peso (weight) está em libras, a altura (height) em pés e a idade (age) em anos completos. Nosso objetivo é estudar o peso em função da altura e da idade.

Como realizar a análise de regressão linear múltipla no SPSS

As etapas dadas em seguida mostram como realizar a análise de regressão linear múltipla no SPSS, supondo que todas as pressuposições do modelo foram atendidas. Ao final, exibiremos os resultados da regressão.

🔸 No menu principal do SPSS, clique em Analisar > Regressão > Linear.

🔸 Você será apresentado à caixa de diálogo.

🔸 Transfira a variável dependente peso (WGT) para a caixa “Dependente” e as variáveis independentes altura (HGT) e idade (AGE) para a caixa “Independente” utilizando o botão de transferência apropriado.

🔸 Clique em Estatísticas. Na caixa de diálogo que se abrirá, selecione as opções Estimativas e Ajuste do Modelo.

🔸 Clique em Continuar para retornar à caixa de diálogo principal da Regressão linear.

🔸 Clique em OK. Será gerada a Saída, com os resultados.

✅ Saída dos Resultados