Thursday, October 31, 2019

Regressão linear múltipla: interpretando a saída do SPSS


O SPSS gera muitas tabelas de saída para uma análise de regressão linear múltipla. Mostramos aqui apenas as três tabelas principais, que precisam ser entendidas por quem deve discutir os resultados do ajuste de uma regressão múltipla. 

A saída completa do SPSS para a regressão linear múltipla permite verificar se as pressuposições básicas para a análise estão satisfeitas. Mas vamos supor aqui que você já verificou que seus dados atendem às premissas necessárias para fornecer um resultado válido.
Procedendo ao cálculo da regressão linear múltipla usando o exemplo dado na postagem anterior (Regressão linear múltipla no SPSS), obtemos a primeira tabela de interesse, isto é, a tabela Resumo do Modelo. Esta tabela fornece R, R2, R2 ajustado e o erro padrão da estimativa, que pode ser usado para determinar quão bem um modelo de regressão se ajusta aos dados.

O valor R é o coeficiente de correlação múltipla. É uma medida da qualidade da previsão da variável dependente, que neste exemplo é o peso da criança, (WGT), dado em libras. Um valor de 0,883 indica bom nível de previsão.
 O valor R2 é o coeficiente de determinação. É a proporção de variação na variável dependente explicada pelas variáveis ​​independentes. O valor R2 = 0,780 mostra que as variáveis ​​independentes explicam 78,0% da variação da variável dependente, WGT (peso). Você também precisa saber interpretar "R2 ajustado", mas vamos explicar isso em próxima postagem.
A segunda tabela de interesse é a tabela de análise de variância, ou tabela de ANOVA (do inglês, ANOVA table), mostrada em seguida. 
O teste F (Z na tabela de ANOVA) testa o ajuste do modelo de regressão. A tabela mostra que as variáveis ​​independentes (AGE, HGT) preveem a variável dependente (WGT) de forma significativa porque p e menor que 0,05. Em outras palavras, o modelo de regressão se ajusta bem aos dados.
A terceira tabela de interesse é aquela que apresenta os coeficientes de regressão. Veja em seguida.
Coeficientes não padronizados indicam quanto a variável dependente varia com uma variável independente, quando as outras variáveis ​​independentes são mantidas constantes. Considere o efeito da idade, neste exemplo. Como mostra a tabela, o coeficiente não padronizado para idade (AGE) é igual a 2,050. Isso significa que, para cada aumento de um ano na idade, há um aumento no peso (WGT) de 2,050 libras (lembre-se de que peso está medido em libras).
O teste t, apresentado na tabela, testa se os coeficientes não padronizados (ou padronizados) são iguais a zero na população. Se p < 0,05, você pode concluir que os coeficientes são significantemente diferentes de zero. O valor t, e o valor p correspondente estão localizados nas colunas "t" e "Sig", respectivamente. Verifique que o coeficiente de altura (HGT) é significante.
Agora, com base nos dados de peso, altura e idade de 12 crianças, você pode escrever:
 Foi ajustada uma regressão linear múltipla para prever o peso em função da altura e da idade de crianças. Obteve-se:
Somente a variável altura (HGT) foi significante ao nível de 5%, mas a variável idade (AGE) pode ser entendida como significante ao nível p =0,056, valor muito próximo de 5% de significância, usado convencionalmente.
NOTA: A amostra é muito pequena e constituída por dados fictícios. Portanto, a conclusão não é válida na prática. Foi usada aqui apenas para facilitar os cálculos e dar, a quem lê, uma referência importante (KLEINBAUM E KUPPER). Os dados não foram transformados no sistema decimal porque não dariam valores inteiros, o que dificultaria a digitação. 

Monday, October 28, 2019

Regressão linear múltipla no SPSS


A análise de regressão permite estabelecer um modelo para a relação entre duas ou mais variáveis. Uma regressão é, portanto, uma função que permite fazer previsões sobre uma variável – que chamaremos de variável resposta (dependente) – com base nas informações obtidas de outras variáveis – que chamaremos de variáveis explicativas, explanatórias ou preditoras (independentes).
 A regressão linear simples é dita linear porque o modelo ajustado é uma reta, e simples porque há apenas uma variável explicativa. A regressão linear simples é definida pelo modelo
Nesse modelo, os pares de variáveis Yi e Xi (i=1,2,...,n) são a variável resposta e a variável explicativa, respectivamente; b0 e b1 são parâmetros a serem estimados para um conjunto de dados e ei  (i=1,2,...,n) são erros aleatórios.
Se você tiver, por exemplo, um conjunto de dados de peso e altura de jovens que se apresentaram para o serviço militar e considerar que peso é função linear da altura, pode ajustar uma reta aos dados, para obter as estimativas b0 e b1 dos parâmetros b b1.
 O termo b0 é o coeficiente linear, também conhecido como intercepto (em inglês, intercept) e o termo b1 é o coeficiente angular, também conhecido como inclinação (em inglês, slope). A melhor reta ajustada  aos dados (melhor, no sentido que tem as propriedades estatísticas desejáveis) recebe o nome de reta de regressão. Muitos autores referem-se à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico aplicado para chegar às fórmulas que permitem calcular as estimativas.
A regressão linear múltipla (multiple linear regression) é uma técnica estatística que usa diversas variáveis ​​explicativas para prever a variável resposta. Logo, a regressão linear múltipla estabelece o modelo para uma relação linear entre a variável resposta (dependente) e diversas variáveis ​​explicativas (independentes).
  A regressão linear múltipla é definida pelo modelo
Nessa fórmula, Yi (i =1, 2,...,n) são as n observações da variável resposta (dependente) e Xi1, Xi2,...,Xik  são as n observações das k variáveis explicativas (independentes).
Ainda, b0 é coeficiente linear (intercepto) e b1, b2,..., bk  são coeficientes angulares para cada variável explicativa (slopes); ei são termos de erros do modelo.
Para ajustar um modelo de regressão linear múltipla a um conjunto de dados, é preciso pressupor que:

  • ·     A variável resposta (dependente) seja contínua.
  • ·     Exista uma relação linear entre a variável resposta e cada uma das variáveis explicativas.
  • ·   As variáveis-resposta, selecionadas ao acaso na população, sejam independentes.
  • ·     Os resíduos tenham distribuição normal de média zero e variância s2.

Vamos mostrar aqui, por meio de um exemplo, como se ajusta uma regressão linear múltipla a um conjunto de dados, usando o SPSS (um software estatístico chamado Statistical Package for Social Sciences). Daremos também breves explicações de como interpretar os dados em uma próxima postagem.
                                                         Exemplo
Imagine uma amostra aleatória de 12 crianças que estão em uma clínica. O peso, a altura e a idade dessas crianças são dados abaixo, já na forma como você deve colocar em arquivo. O peso (weight) é dado em libras, a altura (height) em pés e a idade (age) em anos completos. Você quer estudar o peso em função da altura e da idade.

As etapas dadas em seguida mostram como analisar dados usando regressão linear múltipla no SPSS quando nenhuma das pressuposições foi violada. No final dessas etapas, mostramos os resultados da sua regressão múltipla. Seus dados devem estar no arquivo. 
  •  Clique Analisar, Regressão, Linear no menu principal.
  •  Você será apresentado à caixa de diálogo:

  • Transfira a variável dependente peso (WGT) para a caixa “dependente” e as variáveis independentes altura (HGT) e idade (AGE) para a caixa “independente” usando o botão 

  • Clique em Estatísticas. Você verá a caixa de diálogo Regressão linear Estatísticas. Clique em Estimativas e Ajuste do Modelo.

  • Clique em Continuar. Você voltará à caixa de diálogo Regressão linear. 

  • Clique em OK. Você terá a Saída. Veremos como interpretar os resultados na próxima postagem.