Thursday, October 31, 2019

Regressão linear múltipla: interpretando a saída do SPSS


O SPSS gera muitas tabelas de saída para uma análise de regressão linear múltipla. Mostramos aqui apenas as três tabelas principais, que precisam ser entendidas por quem deve discutir os resultados do ajuste de uma regressão múltipla. 

A saída completa do SPSS para a regressão linear múltipla permite verificar se as pressuposições básicas para a análise estão satisfeitas. Mas vamos supor aqui que você já verificou que seus dados atendem às premissas necessárias para fornecer um resultado válido.
Procedendo ao cálculo da regressão linear múltipla usando o exemplo dado na postagem anterior (Regressão linear múltipla no SPSS), obtemos a primeira tabela de interesse, isto é, a tabela Resumo do Modelo. Esta tabela fornece R, R2, R2 ajustado e o erro padrão da estimativa, que pode ser usado para determinar quão bem um modelo de regressão se ajusta aos dados.

O valor R é o coeficiente de correlação múltipla. É uma medida da qualidade da previsão da variável dependente, que neste exemplo é o peso da criança, (WGT), dado em libras. Um valor de 0,883 indica bom nível de previsão.
 O valor R2 é o coeficiente de determinação. É a proporção de variação na variável dependente explicada pelas variáveis ​​independentes. O valor R2 = 0,780 mostra que as variáveis ​​independentes explicam 78,0% da variação da variável dependente, WGT (peso). Você também precisa saber interpretar "R2 ajustado", mas vamos explicar isso em próxima postagem.
A segunda tabela de interesse é a tabela de análise de variância, ou tabela de ANOVA (do inglês, ANOVA table), mostrada em seguida. 
O teste F (Z na tabela de ANOVA) testa o ajuste do modelo de regressão. A tabela mostra que as variáveis ​​independentes (AGE, HGT) preveem a variável dependente (WGT) de forma significativa porque p e menor que 0,05. Em outras palavras, o modelo de regressão se ajusta bem aos dados.
A terceira tabela de interesse é aquela que apresenta os coeficientes de regressão. Veja em seguida.
Coeficientes não padronizados indicam quanto a variável dependente varia com uma variável independente, quando as outras variáveis ​​independentes são mantidas constantes. Considere o efeito da idade, neste exemplo. Como mostra a tabela, o coeficiente não padronizado para idade (AGE) é igual a 2,050. Isso significa que, para cada aumento de um ano na idade, há um aumento no peso (WGT) de 2,050 libras (lembre-se de que peso está medido em libras).
O teste t, apresentado na tabela, testa se os coeficientes não padronizados (ou padronizados) são iguais a zero na população. Se p < 0,05, você pode concluir que os coeficientes são significantemente diferentes de zero. O valor t, e o valor p correspondente estão localizados nas colunas "t" e "Sig", respectivamente. Verifique que o coeficiente de altura (HGT) é significante.
Agora, com base nos dados de peso, altura e idade de 12 crianças, você pode escrever:
 Foi ajustada uma regressão linear múltipla para prever o peso em função da altura e da idade de crianças. Obteve-se:
Somente a variável altura (HGT) foi significante ao nível de 5%, mas a variável idade (AGE) pode ser entendida como significante ao nível p =0,056, valor muito próximo de 5% de significância, usado convencionalmente.
NOTA: A amostra é muito pequena e constituída por dados fictícios. Portanto, a conclusão não é válida na prática. Foi usada aqui apenas para facilitar os cálculos e dar, a quem lê, uma referência importante (KLEINBAUM E KUPPER). Os dados não foram transformados no sistema decimal porque não dariam valores inteiros, o que dificultaria a digitação. 

Monday, October 28, 2019

Regressão linear múltipla no SPSS


A análise de regressão permite estabelecer um modelo para a relação entre duas ou mais variáveis. Uma regressão é, portanto, uma função que permite fazer previsões sobre uma variável – que chamaremos de variável resposta (dependente) – com base nas informações obtidas de outras variáveis – que chamaremos de variáveis explicativas, explanatórias ou preditoras (independentes).
 A regressão linear simples é dita linear porque o modelo ajustado é uma reta, e simples porque há apenas uma variável explicativa. A regressão linear simples é definida pelo modelo
Nesse modelo, os pares de variáveis Yi e Xi (i=1,2,...,n) são a variável resposta e a variável explicativa, respectivamente; b0 e b1 são parâmetros a serem estimados para um conjunto de dados e ei (i=1,2,...,n) são erros aleatórios.
Se você tiver, por exemplo, um conjunto de dados de peso e altura de jovens que se apresentaram para o serviço militar e considerar que peso é função linear da altura, pode ajustar uma reta aos dados, para obter as estimativas b0 e b1 dos parâmetros b0 e b1. O termo b0 é o coeficiente linear, também conhecido como intercepto (em inglês, intercept) e o termo b1 é o coeficiente angular, também conhecido como inclinação (em inglês, slope). A melhor reta (melhor, no sentido que tem as propriedades estatísticas desejáveis) recebe o nome de reta de regressão. Muitos autores referem-se à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico aplicado para chegar às fórmulas que permitem calcular essas estimativas.
A regressão linear múltipla (multiple linear regression) é uma técnica estatística que usa diversas variáveis ​​explicativas para prever a variável resposta. Logo, a regressão linear múltipla estabelece o modelo para uma relação linear entre a variável resposta (dependente) e diversas variáveis ​​explicativas (independentes).
  A regressão linear múltipla é definida pelo modelo
Nessa fórmula, Yi (i =1, 2,...,n) são as n observações da variável resposta (dependente) e Xi1, Xi2,...,Xik  são as n observações das k variáveis explicativas (independentes).
Ainda, b0 é coeficiente linear (intercepto) e b1, b2,..., bk  são coeficientes angulares para cada variável explicativa (slopes); ei são termos de erros do modelo.
Para ajustar um modelo de regressão linear múltipla a um conjunto de dados, é preciso pressupor que:

·                   A variável resposta (dependente) seja contínua.

·         Exista uma relação linear entre a variável resposta e cada uma das variáveis explicativas.
·         As variáveis-resposta, selecionadas ao acaso na população, sejam independentes.
·         Os resíduos tenham distribuição normal de média zero e variância s2.

Vamos mostrar aqui, por meio de um exemplo, como se ajusta uma regressão linear múltipla a um conjunto de dados, usando o SPSS (um software estatístico chamado Statistical Package for Social Sciences). Daremos também breves explicações de como interpretar os dados em uma próxima postagem.
                                                         Exemplo
Imagine uma amostra aleatória de 12 crianças que estão em uma clínica. O peso, a altura e a idade dessas crianças são dados abaixo, já na forma como você deve colocar em arquivo. O peso (weight) é dado em libras, a altura (height) em pés e a idade (age) em anos completos. Você quer estudar o peso em função da altura e da idade.
As etapas dadas em seguida mostram como analisar dados usando regressão linear múltipla no SPSS quando nenhuma das pressuposições foi violada. No final dessas etapas, mostramos os resultados da sua regressão múltipla. Seus dados devem estar no arquivo. 
  •  Clique Analisar, Regressão, Linear no menu principal.
  •  Você será apresentado à caixa de diálogo:

  • Transfira a variável dependente peso (WGT) para a caixa “dependente” e as variáveis independentes altura (HGT) e idade (AGE) para a caixa “independente” usando o botão 

  • Clique em Estatísticas. Você verá a caixa de diálogo Regressão linear Estatísticas. Clique em Estimativas e Ajuste do Modelo.

  • Clique em Continuar. Você voltará à caixa de diálogo Regressão linear. 

  • Clique em OK. Você terá a Saída. Veremos como interpretar os resultados na próxima postagem.











Friday, October 18, 2019

Países com maiores Taxa de homicídios, maiores PIB per capta, maiores IDH e outros indicadores


Em postagem anterior, apresentei o Brasil como um dos maiores países do mundo, com grande PIB, mas faltou frisar que é também um dos mais populosos. A grandeza do PIB e o tamanho da população se explicam pela extensão territorial do país. O Brasil não é, porém, um país com grande densidade populacional (ao contrário, é até bem vazio), não é dos países mais ricos do mundo nem, em termos humanos, um país desenvolvido. Mas que tal saber quem são os “top ten” nessas variáveis?

                       Os 10 maiores países do mundo em território

                          Os 10 maiores países do mundo em território



   Os 10 países com maior PIB (produto interno bruto) no mundo


     Os 10 países com maior PIB (produto interno bruto) no mundo

      Os 10 países com maior população 



                                                 
         


Os 10 países com maior população 



Os 10 países com maior população carcerária
Os 10 países com maior população carcerária


Os 10 países com maior população carcerária


                                Os 10 países com maior taxa de homicídios 

Os 10 países com maior taxa de homicídios 

O tamanho da população carcerária tem correlação com a extensão territorial do país, mas, evidentemente, a taxa de homicídios, por ser uma taxa, não é explicada pela extensão territorial. De acordo com o Estudo Global de Homicídios conduzido pelas Nações Unidas, alguns dos fatores que levam ao homicídio são as armas de fogo, as drogas, o crime organizado, o estereótipo de gênero, a desigualdade, o desemprego, a instabilidade política.

                     Os 10 países com maior densidade populacional
Os 10 países com maior densidade populacional
O Brasil é um país com baixa densidade demográfica: 25 habitantes/km2. Ocupa o lugar de número 186 no mundo. Mas temos vizinhos com menor densidade demográfica, como Uruguai e Paraguai, com 19 e 17 habitantes por km2, respectivamente.
                          Os 10 países com maior PIB per capita
Os 10 países com maior PIB per capita
O PIB per capita diz, mais do que o PIB, sobre quão próspero é o país para cada um de seus cidadãos. Portanto, mais do que o PIB, mostra a riqueza de um país. Mas o PIB per capta é uma média e, como bem sabem os estatísticos, não basta olhar a média: é preciso olhar também como anda a distribuição da riqueza no país. De qualquer forma, se o PIB per capita for baixo, o país não é rico. Mas olhando apenas o PIB per capita, o Catar é o país mais rico do mundo. Só que o Catar é um país muito pequeno e autocrático, com população extremamente pobre e ricos muito ricos, que puxam a média para cima – mas a desigualdade é tamanha que o desenvolvimento não acontece.
Os Estados Unidos são, de fato, o país mais rico do mundo se você considerar a economia como um todo. Os Estados Unidos têm a maior quantia em dinheiro, embora também tenham uma grande dívida pública. A China tem a segunda maior quantia em dinheiro do mundo. No entanto, nem os Estados Unidos nem a China podem ser classificados no topo da lista dos países mais ricos do mundo porque há muitas pessoas pobres vivendo dentro de suas fronteiras, o que reduz significativamente seu PIB per capita.
Os 10 países com maior IDH

Os 10 países com maior IDH
O Índice de Desenvolvimento Humano (IDH) é uma medida que resume o desempenho médio da população em três dimensões muito importantes para julgar o desenvolvimento humano: saúde, medida por uma vida longa e saudável, educação, medida pela escolaridade e independência econômica, ou seja, pelo fato de as pessoas terem um padrão de vida decente. O IDH foi criado para enfatizar que as pessoas e suas capacidades devem ser os critérios finais para julgamento. 



Tuesday, October 08, 2019

Brasil: grande extensão territorial, alto PIB, baixo IDH.


Uma amiga me dizia que o Brasil é um dos maiores países do mundo e um dos mais ricos. Não tenho dúvida de que o Brasil é, como se costuma dizer, um país de dimensões continentais e tem um produto interno bruto (PIB) entre os maiores do mundo.  Então, minha amiga acredita estar certa porque O Brasil tem grande extensão territorial (é o 5º no mundo) e enorme PIB (é o 9º do mundo). Mas não basta saber o PIB de um país – que é a soma de todos os bens e serviços finais produzidos por esse país durante um ano – para dizer que o país é rico.
Uma medida mais adequada do padrão de vida em um país é o produto interno bruto per capita (PIB per capita), que é obtido fazendo a divisão do PIB do país pelo número de pessoas que ali vivem. Esse indicador diz mais sobre quão próspero é o país para cada um de seus cidadãos.
Ainda, olhar apenas o PIB para avaliar a riqueza de uma nação prejudicaria a classificação de países como, por exemplo, Luxemburgo, Cingapura e São Marinho. Esses países são muito pequenos e muito ricos. Isto acontece porque eles dispõem de sofisticados setores financeiros e regimes tributários que ajudam a atrair investimentos estrangeiros e talento profissional.
 Outros países como Qatar, Brunei e Kuwait são pequenos, porém ricos porque têm grandes reservas de recursos naturais extremamente lucrativos. Ainda, cassinos e turistas também enriquecem um país. Por exemplo, Macau é o segundo estado mais rico do mundo porque é um paraíso do jogo. Todas essas informações foram divulgadas pelo Fundo Monetário Internacional (FMI) em abril de 2019.
No entanto, o índice de desenvolvimento humano (IDH) é mais importante para indicar o padrão de vida no país. Veja bem: o IDH é um índice estatístico composto de indicadores de expectativa de vida, educação e renda per capita. Resume, em uma única medida, o desempenho médio no país nas principais dimensões do desenvolvimento humano que são vida longa e saudável, conhecimento/educação e padrão de vida decente. Foi criado para enfatizar que as pessoas e suas capacidades devem ser os critérios finais para avaliar o desenvolvimento de um país, ou seja, não basta olhar crescimento econômico.

A dimensão saúde é avaliada pela expectativa de vida ao nascer, a dimensão educação é medida pela média de anos de escolaridade para adultos com 25 anos ou mais e anos esperados de escolaridade para crianças em idade escolar. A dimensão do padrão de vida é medida pela renda nacional bruta per capita.
É verdade que o discurso dominante para aferir a qualidade de vida no país trata apenas de indicadores econômicos, mesmo quando leva em conta a distribuição de renda. Não considera, porém, desigualdades em outras dimensões como saúde, educação, acesso a tecnologia, exposição aos desastres ambientais, violência.
Então, fiquei pensando no ufanismo da minha amiga, própria para Olavo Bilac que escreveu, no início do século XX:
Criança! não verás nenhum país como este!
 Olha que céu! que mar! que rios! que floresta!”
O Brasil tem, de fato, a maior floresta tropical do mundo (atualmente também tem grandes queimadas) e grandes rios (hoje com poluição orgânica e química,  como acontece com o Rio Tietê e rejeitos industriais não devidamente tratados, programados para grandes tragédias como as que ocorreram em Mariana e Brumadinho). No item PIB per capita, somos o 82º país do mundo, no IDH somos o 79º país do mundo e na taxa de homicídios somos o 7º país do mundo. Há muito por fazer.
Se o Brasil tem vocação para ser o número 1 do mundo, seria no item ecologia. A Conferência das Nações Unidas sobre o Meio Ambiente e Desenvolvimento realizada em junho de 1992 no Rio de Janeiro (ECO-92) deliberou como a humanidade deveria encarar sua relação com o planeta. Deveríamos ampliar essa cartilha. E torcer para que o cacique Raoni receba o Nobel da Paz. Afinal, seria o primeiro Nobel para um brasileiro e um símbolo para o ponto em que o Brasil pode se destacar: ser o país das verdes matas, que guardam segredos por serem descobertos. E não veremos "a queda do céu"(*).
(*)Referência ao livro de Davi Kopenawa.


Wednesday, October 02, 2019

Estudos longitudinais (continuação)


Apesar de o número de estudos longitudinais ter aumentado ao longo do tempo, os procedimentos para a análise desse tipo de estudo não aumentaram na mesma velocidade. Algumas maneiras de tratar os dados, que deveriam ter apenas interesse histórico, continuam na prática e métodos que apenas reduzem estudos longitudinais a estudos transversais também continuam em uso.
O dado perdido é sempre um grande problema para a análise estatística. Mas dados perdidos ocorrem principalmente porque alguns participantes se retiram do estudo (dropout) antes de o estudo terminar. Já foram propostas diversas maneiras para resolver o problema.
Algumas vezes, é feita uma “análise completa” (completer analysis), isto é, uma análise em que são considerados somente dados de participantes que completaram o estudo. Na maioria das vezes, a amostra analisada nesses casos é diferente da amostra de participantes que iniciaram o estudo. Se apenas pacientes cooperativos completarem o estudo, os resultados podem ser tendenciosos.   
Outra maneira de contornar o problema é considerar que medidas que seriam obtidas depois que o participante deixou de comparecer seriam iguais à medida feita em sua última visita. Essa abordagem é denominada “última observação levada adiante” (last observation carried forward - LOCF). Assumimos assim que, uma vez que o participante abandonou o estudo, seu nível de resposta permanecerá inalterado por longo tempo. Mas não há lógica em acreditar nisso. No entanto, a abordagem LOCF continua a ser usada porque é conservadora. Uma crítica ao uso da LOCF é a de que ela pode dar a falsa impressão de que essa é a forma adequada de contornar ao problema dos dados perdidos. Então os pesquisadores podem deixar de se preocupar com a falta de adesão à pesquisa científica e deixar de trabalhar contra isso. E, ainda, cumpre lembrar que uma medida da qualidade do trabalho clínico é o número de participantes que se apresentaram em todas as visitas.
Na análise de dados longitudinais também é aplicada uma ANOVA de modelo misto, ou seja, uma análise de variância em que cada participante da pesquisa é tomado como um critério de classificação de efeitos aleatórios. Esse tipo de análise é muitas vezes identificado como ANOVA para medidas repetidas. Aqui, a pressuposição implícita é a de que a variação entre indivíduos é constante ao longo do tempo. No entanto, parece mais razoável considerar que a variação entre indivíduos mude ao longo do tempo. Considerando essa observação como limitação, a ANOVA para medidas repetidas não deve ser usada para análise de dados longitudinais.

Em uma tentativa de fornecer um tratamento mais geral aos dados longitudinais, com suposições mais realistas sobre o processo de resposta longitudinal e com procedimentos mais adequados para tratar dados ausentes, os pesquisadores estatísticos desenvolveram uma ampla variedade de abordagens mais rigorosas para a análise de dados longitudinais. Entre estes, estão os e modelos de equações de estimativa generalizada (GEE). 

VEJA:



      1.    Laird NM. Missing data in longitudinal studies. Stat Med. 1988; 7:305–15. [PubMed[Google Scholar]

        2.     Gibbons R D,  Hedeker D, DuToit S. Advances in Analysis of Longitudinal  Data.  Annu Rev Clin Psychol. 2010 Apr 27; 6: 79–107.