Sunday, September 29, 2019

Estudos longitudinais


Os estudos longitudinais ou prospectivos são mais informativos do que os estudos transversais, mas além de terem limitações, também impõem algumas dificuldades para a análise. Primeiramente, não custa lembrar que as diferenças individuais são mais a regra do que a exceção. A média geral obtida de uma amostra diz pouco sobre cada pessoa em particular, uma vez que cada participante de pesquisa tem um erro específico em relação ao padrão populacional médio. Daí a necessidade de bem estudar a heterogeneidade observada na amostra, medida pela variância. Mas como fazer a análise?
A dificuldade mais importante para uma boa análise dos dados é, possivelmente, aquela trazida pela perda de dados. Afinal de contas, nem todos os participantes de pesquisa permanecem no estudo por todo o período em que as medições estavam planejadas. As razões para um participante se retirar do estudo são múltiplas e variadas. Por exemplo, um participante pode se retirar da pesquisa por se sentir bem o suficiente a ponto de achar que permanecer com o tratamento não mais trará benefícios. Por outro lado, uma pessoa pode desistir pelo fato de não ter obtido resultados conforme a própria expectativa ou por ter se assustado com efeitos colaterais do tratamento, mesmo que leves e eventuais.
Quando as desistências (drop-outs) ocorrem em ensaios clínicos controlados e randomizados, os analistas em geral optam por fazer uma análise considerando a “intenção de tratar”. A última medida feita é mantida até o final do ensaio, como se fosse medida observada. É o que se chama LOCF (last observation carried forward). Isso também é feito nos estudos longitudinais, principalmente quando de longa duração, em que ocorrem muitas desistências. No entanto, participantes que permanecem até o final do estudo podem ser diferentes daqueles que se retiraram. Mais ainda, as respostas dos participantes que seriam obtidas no final do estudo talvez fossem diferentes das respostas observadas na última medição. De qualquer forma, o uso de LOCF ajuda para o procedimento de uma análise de variância, porque os dados ficam balanceados.
Também é possível que ocorram dados perdidos mesmo quando os participantes permanecem até o final. Isto acontece porque o número de participações de cada pessoa pode variar, uma vez que a pessoa pode faltar em uma ou mais consultas. As medições podem, também, não ficar igualmente espaçadas para todos pelo simples fato de nem todos os participantes terem tempo disponível na mesma ocasião. Dados perdidos são sempre um problema para uma análise de variância tradicional, mas que pode ser bem resolvido por uma análise de regressão. 
As dificuldades para análise não param, porém, por aqui. Existe correlação entre medidas sucessivas tomadas no mesma pessoa. A análise estatística precisa, portanto, considerar a auto correlação dos resíduos, para que as conclusões não fiquem prejudicadas. Na análise de variância, participantes são tomados como um critério de classificação, de efeitos aleatórios.
Mas além da correlação que aparece devido às medidas feitas repetidamente nas mesmas pessoas, há, ainda, a correlação devido o agrupamento de pessoas em escolas, clínicas, hospitais, cidades. Embora a correlação produzida pelo agrupamento seja bem menor do que aquela produzida pela repetição de medidas no mesmo participante, ainda assim pode levar a subestimação da variância, se o efeito do agrupamento não for levado em conta na análise. Vamos ampliar a discussão em novas postagens.


Thursday, September 19, 2019

Linha de tendência linear passando pela origem


É possível que a regressão linear simples deva obrigatoriamente começar na origem do sistema de eixos cartesianos, por conta de uma experiência prévia ou de teoria. Por exemplo, um corpo em movimento retilíneo uniforme, no tempo zero percorreu uma distância zero. módulo de Young ou de elasticidade mede a rigidez de um material sólido. É dado pela inclinação da reta que estabelece a relação entre tensão (força por unidade de área) e a deformação de um material no regime de elasticidade linear, como mostra a Figura 1.


A regressão linear simples que passa pela origem é útil na área de estatística aplicada. No entanto, mesmo nos casos em que possa fazer sentido ajustar uma regressão linear simples passando pela origem, recomenda-se comparar o modelo ajustado com o modelo com intercepto diferente de zero.

De qualquer forma, questões de estatística ligadas ao ajuste do modelo são controversas. Prova disso é o resultado diferente que se obtém quando se ajusta a regressão linear simples com intercepto zero a uma amostra de pares de dados usando os programas Minitab, Excel e SPSS: os resultados são diferentes.

De qualquer forma, o modelo da regressão linear simples que deve obrigatoriamente passar pela origem é
Nesse modelo:
 X é a variável independente ou explicativa;
 Y é a variável dependente ou resposta;
 e são erros aleatórios;
  é o parâmetro. 

  A estimativa de b é dada por:


  A reta de regressão ajustada é:


  Os desvios ou resíduos são dados por


A soma dos desvios ou resíduos não é zero. Isto acontece porque, forçando a reta de regressão a passar pela origem, não se consegue o melhor ajuste.

Para proceder à análise de variância, calcule:


Observe que, sem a constante, os graus de liberdade para SQ Total, SQ Regressão e SQ Resíduo são n, k e n-k respectivamente, sendo n o número de pares de observações das variáveis X e Y e k o número de variáveis independentes (no caso, k=1). Podemos, então, construir a tabela de anova (análise de variância), como está na Tabela 1.

Veja os dados, X e Y, na Tabela 2, com os cálculos necessários para ajustar uma regressão linear simples passando pela origem. 


Logo, a equação da reta de regressão é:

Também podem ser calculados os valores do desvio padrão (s), do coeficiente de determinação (R2) e o valor do teste t para o coeficiente angular b. Veja as fórmulas:

              Para os dados do exemplo:


Veja a Figura 2, que apresenta os valores observados, os valores obtidos pela reta de regressão e a reta ajustada.

A “saída” do Minitab está apresentada em seguida.








Saturday, September 14, 2019

Regressão linear simples:: estimativas e testes


A análise de regressão é uma técnica estatística que busca estabelecer a relação entre duas ou mais variáveis. A regressão linear simples busca explicar a relação entre apenas duas variáveis, X e Y, por meio de uma reta. Por exemplo, um estatístico pode querer saber se existe relação entre a quantidade de propaganda de determinado produto (X) e o número de unidades vendidas (Y). Um exemplo numérico com dados fictícios está apresentado na Tabela 1 e no diagrama de dispersão do Gráfico 1.
Olhando o diagrama de dispersão do exemplo, você percebe que não pode achar uma reta que passe sobre todos os pontos. Logo, não existe uma função matemática que dê o valor de Y em função de X. No entanto, o diagrama de dispersão dá a ideia de que existe uma reta em torno da qual os dados se distribuem. Esta é uma relação estatística, expressa pelo modelo:
Nesse modelo de regressão, X é a variável independente ou explicativa e Y é variável dependente ou resposta; e são erros aleatórios.

 Os valores b são parâmetros; a é o coeficiente linear e b é o coeficiente angular. A verdadeira reta de regressão não é conhecida. No entanto, podemos obter as estimativas a e b de ab usando as fórmulas:

   As fórmulas são obtidas pelo método dos quadrados mínimos. A reta de regressão estimada, usando os valores calculados de a e b é chamada de reta ajustada.
  Vamos obter as estimativas a e b da reta ajustada aos dados do exemplo apresentado. Facilita construir uma tabela com cálculos auxiliares, como a Tabela 2. As somas que constam das fórmulas estão no rodapé dessa tabela.
                                                     Tabela 2


A reta ajustada é:

Ajustada a reta de regressão, podem ser obtidos os valores ajustados de Y para cada valor de X. Por exemplo, para X= 3, segue-se que:


É importante notar que os valores estimados de Y podem ser diferentes dos valores observados de Y. As diferenças entre esses dois valores são chamados de desvios ou resíduos, que indicaremos por e. Então, para X= 3, uma vez que Y observado é 4 e Y estimado é 5, segue-se que:

 Os demais desvios estão na Tabela 3.

Tabela 3              

A estimativa da variância da regressão, que indicaremos por s2, é dada pela soma dos quadrados dos desvios (também apresentada na Tabela 3) dividida pelos respectivos graus de liberdade (n-2). Então, a variância é obtida pela fórmula:


No caso do exemplo que estamos desenvolvendo: 

   O teste t é usado para testar hipóteses sobre os coeficientes de regressão, no caso de uma regressão linear simples, desde que seja razoável pressupor que os erros são variáveis aleatórias independentes com distribuição normal de média zero e variância s2.

Para testar a hipótese de que o coeficiente angular é 1 (H0: 
b =1), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:
em que b é a estimativa de b e s(b) é o erro padrão da estimativa. O valor de s(b) é dado pela fórmula:

Para obter s(b), é preciso calcular o somatório que está no denominador da fração. Precisamos então da média de X:


Vamos então construir uma tabela.

Tabela 4
Com o valor já calculado de s2, obtemos:

Para testar a hipótese de que o coeficiente angular é 1 (H0: b =1), calculamos:
Para um teste bilateral, o valor crítico de t com 8 graus de liberdade no nível de significância de 5% é 2,306. Não rejeitamos a hipótese de que b= 1.

Para testar a hipótese de que o coeficiente linear é 0 (H0: a =0), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que a é a estimativa de a e s(a) é seu erro padrão. O valor de s(a) é dado pela fórmula:

Então, para o exemplo:



Para testar a hipótese de que o coeficiente linear é 1 (H0: 
a = 0), calculamos:

Para um teste bilateral, o valor crítico de t com 8 graus de liberdade, no nível de significância de 5% é 2,306. Rejeitamos a hipótese de que a = 0.


Sunday, September 01, 2019

VARIAÇÃO PERCENTUAL


       A variação percentual expressa a medida com que uma variável ganha ou perde intensidade, magnitude, extensão ou valor entre dois períodos distintos, em relação a um desses períodos.

                    3% excedem 2% em 50%, não em 1%.
      Por exemplo, o Instituto Nacional de Pesquisas Espaciais (INPE) alertou para o desmatamento na Amazônia Legal no mês de junho de 2019: 920,4 km². No mesmo período do ano anterior, isto é, em junho de 2018, o alerta para o desmatamento na Amazônia Legal havia sido de 489,6 km².  A diferença entre esses dois períodos foi de

A variação percentual foi de


  Um aumento percentual de 88% em relação ao mesmo período do ano anterior é alto, qualquer que seja a variável em análise. Posto em termos de alerta para o desmatamento na Amazônia, significa que o alerta em 2019 foi 88% maior do que o alerta feito em 2018, para o mesmo mês, junho. Não significa, obviamente, 88% de desmatamento dos 5.217.423 km² da Amazônia Legal. Veja os dados do INPE e confira: o alerta para o desmatamento na Amazônia foi maior, prenúncio da queimada que estava por vir.
Outro exemplo trata a taxa de mortalidade infantil, importante indicador social. Por definição, taxa de mortalidade infantil é a frequência de óbitos infantis (menores de um ano) em relação ao número de nascidos vivos em uma dada população, em determinado ano civil. É, portanto, uma estimativa da probabilidade de um recém-nascido não completar o primeiro ano de vida.
De acordo com o Instituto Brasileiro de Geografia e Estatística (IBGE), a taxa de mortalidade infantil no Brasil era de 13,3 óbitos por mil nascidos vivos em 2015 e 14,0 em 2016. A taxa de mortalidade infantil cresceu nesse período, fato que não ocorria desde 1990.
Para saber a diferença em pontos percentuais, é preciso, primeiramente, transformar a taxa de mortalidade infantil, que é dada por mil nascidos vivos, em porcentagem. Então: 13,3‰ significam 1,33% óbitos em 2015; 14,0‰ significam 1,40% óbitos em 2016. A diferença é
A variação percentual foi positiva, indicando aumento relativo da taxa de mortalidade infantil. Veja o cálculo:
Em 2017, a taxa de mortalidade infantil recuou: de 14 óbitos por mil nascidos vivos em 2016 para 12,8 óbitos em 2017. Então: 14,0‰ significam 1,40% óbitos (em 2016) e 12,8‰ significam 1,28% (em 2017). A diferença é
 A variação percentual foi negativa, indicando diminuição da mortalidade infantil de 2016 para 2017 em:

E já que estamos falando em percentuais, vale lembrar que, de acordo com Albert Einstein:

             “Genius is 1% talent and 99% percent hard work...”

                       Leia no celular


            Você acha no Kindle da Amazon, por R$9,00.