Thursday, October 31, 2019

Regressão Múltipla Usando SPSS: Interprete os Resultados Como Especialista

Você rodou uma regressão linear múltipla no SPSS e… foi recebido com uma avalanche de tabelas? Calma, isso é mais comum do que parece — mas a boa notícia é que você não precisa se perder nos números.

Neste post, vamos direto ao ponto e te mostrar as três tabelas mais importantes da saída do SPSS que todo mundo que analisa regressão múltipla precisa entender. Com explicações claras e exemplo prático, você vai aprender a interpretar os valores de R, R², ANOVA e os coeficientes como um especialista — mesmo que esteja começando agora.

Resumo do Modelo


Para proceder ao cálculo da regressão linear múltipla, vamos utilizar o exemplo dado na postagem anterior (Regressão linear múltipla no SPSS). Os dados estão repetidos na tabela apresentada abaixo.


Com esses dados, obtivemos a primeira tabela de interesse, isto é, a tabela Resumo do Modelo. Esta tabela fornece R, R2, R2 ajustado e o erro padrão da estimativa, que pode ser usado para determinar quão bem um modelo de regressão se ajusta aos dados.



O valor R é o coeficiente de correlação múltipla. É uma medida da qualidade da previsão da variável dependente, que neste exemplo é o peso da criança, (WGT), dado em libras. Um valor de 0,883 indica bom nível de previsão.

 O valor R2 é o coeficiente de determinação. É a proporção de variação na variável dependente explicada pelas variáveis ​​independentes. O valor R2 = 0,780 mostra que as variáveis ​​independentes explicam 78,0% da variação da variável dependente, WGT (peso). Você também precisa saber interpretar "Rajustado", mas vamos explicar isso em próxima postagem.

              Tabela de análise de variância (ANOVA)

A segunda tabela de interesse é a tabela de análise de variância, ou tabela de ANOVA (do inglês, ANOVA table), mostrada em seguida. 



O teste F (indicado como "Z" na tabela ANOVA) avalia o ajuste do modelo de regressão. A tabela mostra que as variáveis independentes (AGE e HGT) predizem significativamente a variável dependente (WGT), já que p < 0,05. Em outras palavras, o modelo de regressão se ajusta bem aos dados.


Coeficientes de regressão


A terceira tabela de interesse é aquela que apresenta os coeficientes de regressão. Veja em seguida.

Coeficientes não padronizados indicam quanto a variável dependente varia com cada variável independente, mantendo-se as demais  constantes. Considere o efeito da idade, neste exemplo: o coeficiente não padronizado para idade (AGE) é igual a 2,050. Isso significa que, para cada aumento de um ano na idade, espera-se um aumento de 2,050 libras no peso (WGT) (lembre-se de que peso está medido em libras).

O teste t, apresentado na tabela, testa se os coeficientes (padronizados ou não) são iguais a zero na população. Se p < 0,05, conclui-se que os coeficientes são significantemente diferentes de zero. Os valores do teste  t e seus respectivos valores p  estão localizados nas colunas "t" e "Sig", respectivamente. Observe que o coeficiente de altura (HGT) é significante.

                                               Conclusão

Foi ajustada uma regressão linear múltipla para prever o peso em função da altura e da idade de crianças. Obteve-se:

         

✅ Apenas a variável altura (HGT) foi significativa ao nível de 5%. A variável idade (AGE), com p = 0,056, pode ser considerada significativa em um nível próximo ao convencional de 5%. Veja a figura na abertura deste post.


Observação

A amostra é muito pequena e composta por dados fictícios. Portanto, as conclusões não são válidas na prática. Este exemplo foi utilizado apenas para facilitar os cálculos e fornecer uma referência importante ao leitor (KLEINBAUM e KUPPER). Os dados não foram convertidos para o sistema métrico decimal porque resultariam em valores não inteiros, o que dificultaria a digitação.







Monday, October 28, 2019

Ajuste Sua Primeira Regressão Linear Mltipla no SPSS


                                                 Análise de regressão

A análise de regressão permite estabelecer um modelo para descrever a relação entre duas ou mais variáveis. Trata-se de uma técnica que possibilita fazer previsões sobre uma variável – chamada variável resposta (dependente) – com base em informações obtidas de outras variáveis – conhecidas como  variáveis explicativas (também chamadas de explanatórias, preditoras ou independentes).

Regressão linear simples

A regressão linear simples é denominada “linear” porque o modelo ajustado é uma reta, e “simples” porque há apenas uma variável explicativa. A regressão linear simples é definida pelo modelo:

 

Nesse modelo, os pares de variáveis Yi e Xi (i=1, 2, ..., n) representam a variável resposta e a variável explicativa, respectivamente; b0 e b1 são parâmetros a serem estimados a partir dos dados e eij  (i=1, 2, ..., n) são erros aleatórios.

Por exemplo, ao analisar um conjunto de dados de peso e altura de jovens que se apresentaram para o serviço militar, pode-se supor que peso seja função linear da altura. Ajustando uma reta a esses dados, obtém-se as estimativas bbdos parâmetros b0 b1 da regressão.

 O termo b0 é o coeficiente linear, também conhecido como intercepto (intercept, em inglês) e o termo b1 é o coeficiente angular, também conhecido como inclinação (slope, em inglês). A reta ajustada aos dados, considerada a melhor, no sentido de possuir propriedades estatísticas desejáveis, é chamada de reta de regressão. Muitos autores também a denominam reta de mínimos quadrados, em referência ao método estatístico utilizado para calcular as estimativas.

Regressão linear múltipla

A regressão linear múltipla (multiple linear regression) é uma técnica estatística que usa diversas variáveis ​​explicativas para prever a variável resposta. Logo, a regressão linear múltipla estabelece o modelo para uma relação linear entre a variável resposta (dependente) e diversas variáveis ​​explicativas (independentes).

Nessa fórmula, Yi (i =1, 2,...,n) são as n observações da variável resposta (dependente) e Xi1Xi2,...,Xik  são as n observações das k variáveis explicativas (independentes). O coeficiente bé o intercepto e b1, b2,..., bk  são os coeficientes angulares correspondentes a cada variável explicativa. Os termos esão os erros do modelo.

Para ajustar um modelo de regressão linear múltipla, algumas pressuposições deve ser atendidas.

Pressuposições


🔸A variável resposta (dependente) deve ser contínua.

🔸Deve haver uma relação linear entre a variável resposta e cada uma das variáveis explicativas.

🔸As observações das variáveis explicativas devem ser independentes entre si.

🔸Os desvios devem ter distribuição normal de média zero e variância s2.


Vamos mostrar, por meio de um exemplo, como ajustar uma regressão linear múltipla a um conjunto de dados utilizando o SPSS (Statistical Package for Social Sciences). Em outra postagem, explicaremos como interpretar os resultados.


                                                                  Exemplo

Considere uma amostra aleatória de 12 crianças atendidas em uma clínica. O peso, a altura e a idade dessas crianças estão apresentados abaixo, já formados para inserção no SPSS. O peso (weight) está em libras, a altura (height) em pés e a idade (age) em anos completos. Nosso objetivo é estudar o peso em função da altura e da idade.         


                  Como realizar a análise de regressão linear múltipla no SPSS

As etapas dadas em seguida mostram como realizar a análise de regressão linear múltipla no SPSS, supondo que todas as pressuposições do modelo foram atendidas. Ao final, exibiremos os resultados da regressão. 

🔸   No menu principal do SPSS, clique em Analisar > Regressão > Linear.

🔸  Você será apresentado à caixa de diálogo.

🔸 Transfira a variável dependente peso (WGT) para a caixa “Dependente” e as variáveis independentes altura (HGT) e idade (AGE) para a caixa “Independente” utilizando o botão de transferência apropriado.


🔸  Clique em Estatísticas. Na caixa de diálogo que se abrirá, selecione as opções Estimativas e Ajuste do Modelo.

   🔸 Clique em Continuar para retornar à caixa de diálogo principal da Regressão linear. 


       🔸 Clique em OK. Será gerada a Saída, com os resultados. 

 Saída dos Resultados