Sunday, September 29, 2019

Estudos longitudinais





    Estudos longitudinais ou prospectivos fazem medições repetidas das mesmas pessoas ao longo do tempo, enquanto estudos transversais coletam dados em apenas determinado momento. Os estudos longitudinais são mais informativos, mas têm limitações. A maior dificuldade está na perda de observações. Nem todos os participantes de pesquisa estão presentes em todas as sessões que foram inicialmente planejadas na pesquisa.

Ocorrem muitas desistências, principalmente nos estudos longitudinais de longa duração. Desistências prejudicam os resultados. Participantes que permanecem até o final do estudo podem ser diferentes daqueles que se retiram em diferentes momentos. Também ocorrem perdas mesmo quando não há desistências. Se as pessoas puderem faltar em uma ou mais sessões, o número de participações de cada uma pode variar ao longo do estudo. Ainda, as medições podem não ficar igualmente espaçadas porque nem todos os participantes têm tempo disponível na mesma ocasião.

As dificuldades para análise não param, porém, por aqui. Existe correlação entre medidas sucessivas tomadas na mesma pessoa. A análise estatística precisa, portanto, considerar a auto correlação dos resíduos, para que as conclusões não fiquem prejudicadas. Mas além da correlação que aparece devido às medidas feitas repetidamente nas mesmas pessoas, há, ainda, a correlação explicada pelo agrupamento de pessoas em escolas, clínicas, hospitais, cidades. Embora a correlação produzida pelo agrupamento seja bem menor do que aquela produzida pela repetição de medidas no mesmo participante, ainda assim pode levar a subestimação da variância, se o efeito do agrupamento não for levado em conta na análise.

De qualquer modo, estudos longitudinais são comuns na literatura. No entanto, os procedimentos estatísticos para a análise desse tipo de estudo não aumentaram na mesma velocidade. Algumas maneiras de tratar os dados, que deveriam ter apenas interesse histórico, continuam na prática e métodos que apenas reduzem estudos longitudinais a estudos transversais também continuam em uso.

Algumas vezes, é feita uma “análise completa” (complete analysis), isto é, uma análise em que são considerados somente dados de participantes que completaram o estudo. Na maioria das vezes, porém, a amostra analisada é diferente da amostra de participantes que iniciaram o estudo. Se apenas participantes cooperativos completarem o estudo, os resultados podem ser tendenciosos.   

Outra maneira de contornar o problema é considerar que medidas que seriam obtidas depois de o participante deixar de comparecer seriam iguais à medida feita em sua última visita. Essa abordagem é denominada “última observação levada adiante” (last observation carried forward LOCF). Assumimos assim que, uma vez que o participante abandonou o estudo, seu nível de resposta permanecerá inalterado por longo tempo. Mas não há lógica em acreditar nisso. No entanto, a abordagem LOCF continua a ser usada porque é conservadora. Uma crítica ao uso da LOCF é a de que ela pode dar a falsa impressão de que essa é a forma adequada de contornar ao problema dos dados perdidos. Então os pesquisadores podem deixar de se preocupar com a falta de adesão à pesquisa científica e deixar de trabalhar contra isso. E, ainda, cumpre lembrar que uma medida da qualidade do trabalho clínico é o número de participantes que se apresentaram em todas as visitas.

 Na análise de dados longitudinais também é aplicada uma ANOVA de modelo misto, ou seja, uma análise de variância em que cada participante da pesquisa é tomado como um critério de classificação de efeitos aleatórios. Esse tipo de análise é muitas vezes identificado como ANOVA para medidas repetidas. Aqui, a pressuposição implícita é a de que a variação entre indivíduos é constante ao longo do tempo. No entanto, parece mais razoável considerar que a variação entre indivíduos mude ao longo do tempo. Considerando essa observação como limitação, a ANOVA para medidas repetidas não deveria ser usada para análise de dados longitudinais.

Foram desenvolvidas algumas abordagens mais rigorosas para tratar dados longitudinais, com suposições mais realistas sobre o processo de resposta longitudinal e com procedimentos mais adequados para tratar dados perdidos. Entre elas, estão os modelos de equações de estimativa generalizada (GEE). Você pode usar softwares como R e SAS se quiser aplicar GEE em estudos que acompanham pessoas ao longo do tempo.

               VEJA:

 

 

              1.  Laird NM. Missing data in longitudinal studies. Stat Med. 1988; 7:305–15. [PubMed] [Google Scholar]

        2. Gibbons R D,  Hedeker D, DuToit S. Advances in Analysis of Longitudinal  Data.  Annu Rev Clin Psychol. 2010 Apr 27; 6: 79–107.


Thursday, September 19, 2019

Linha de tendência linear passando pela origem


É possível que a regressão linear simples deva obrigatoriamente começar na origem do sistema de eixos cartesianos, por conta de uma experiência prévia ou de teoria. Por exemplo, um corpo em movimento retilíneo uniforme, no tempo zero percorreu uma distância zero. módulo de Young ou de elasticidade mede a rigidez de um material sólido. É dado pela inclinação da reta que estabelece a relação entre tensão (força por unidade de área) e a deformação de um material no regime de elasticidade linear, como mostra a Figura 1.


A regressão linear simples que passa pela origem é útil na área de estatística aplicada. No entanto, mesmo nos casos em que possa fazer sentido ajustar uma regressão linear simples passando pela origem, recomenda-se comparar o modelo ajustado com o modelo com intercepto diferente de zero.

De qualquer forma, questões de estatística ligadas ao ajuste do modelo são controversas. Prova disso é o resultado diferente que se obtém quando se ajusta a regressão linear simples com intercepto zero a uma amostra de pares de dados usando os programas Minitab, Excel e SPSS: os resultados são diferentes.

De qualquer forma, o modelo da regressão linear simples que deve obrigatoriamente passar pela origem é
Nesse modelo:
 X é a variável independente ou explicativa;
 Y é a variável dependente ou resposta;
 e são erros aleatórios;
  é o parâmetro. 

  A estimativa de b é dada por:


  A reta de regressão ajustada é:


  Os desvios ou resíduos são dados por


A soma dos desvios ou resíduos não é zero. Isto acontece porque, forçando a reta de regressão a passar pela origem, não se consegue o melhor ajuste.

Para proceder à análise de variância, calcule:


Observe que, sem a constante, os graus de liberdade para SQ Total, SQ Regressão e SQ Resíduo são n, k e n-k respectivamente, sendo n o número de pares de observações das variáveis X e Y e k o número de variáveis independentes (no caso, k=1). Podemos, então, construir a tabela de anova (análise de variância), como está na Tabela 1.

Veja os dados, X e Y, na Tabela 2, com os cálculos necessários para ajustar uma regressão linear simples passando pela origem. 


Logo, a equação da reta de regressão é:

Também podem ser calculados os valores do desvio padrão (s), do coeficiente de determinação (R2) e o valor do teste t para o coeficiente angular b. Veja as fórmulas:

              Para os dados do exemplo:


Veja a Figura 2, que apresenta os valores observados, os valores obtidos pela reta de regressão e a reta ajustada.

A “saída” do Minitab está apresentada em seguida.








Saturday, September 14, 2019

Regressão linear simples:: estimativas e testes




 A análise de regressão é uma técnica estatística que busca estabelecer a relação entre duas ou mais variáveis. A regressão linear simples busca explicar a relação entre apenas duas variáveis, X e Y, por meio de uma reta. Por exemplo, um estatístico pode querer saber se existe relação entre a quantidade de propaganda de determinado produto (X) e o número de unidades vendidas (Y). Um exemplo numérico com dados fictícios está apresentado na Tabela 1 e no diagrama de dispersão do Gráfico 1.
Olhando o diagrama de dispersão do exemplo, você percebe que não pode achar uma reta que passe sobre todos os pontos. Logo, não existe uma função matemática que dê o valor de Y em função de X. No entanto, o diagrama de dispersão dá a ideia de que existe uma reta em torno da qual os dados se distribuem. Esta é uma relação estatística, expressa pelo modelo:
Nesse modelo de regressão, X é a variável independente ou explicativa e Y é variável dependente ou resposta; e são erros aleatórios.

 Os valores b são parâmetros; a é o coeficiente linear e b é o coeficiente angular. A verdadeira reta de regressão não é conhecida. No entanto, podemos obter as estimativas a e b de ab usando as fórmulas:

   As fórmulas são obtidas pelo método dos quadrados mínimos. A reta de regressão estimada, usando os valores calculados de a e b é chamada de reta ajustada.
   
Vamos obter as estimativas a e b da reta ajustada aos dados do exemplo apresentado. Facilita construir uma tabela com cálculos auxiliares, como a Tabela 2. As somas que constam das fórmulas estão no rodapé dessa tabela.
                                               Tabela 2


 A reta ajustada é:

Ajustada a reta de regressão, podem ser obtidos os valores ajustados de Y para cada valor de X. Por exemplo, para X= 3, segue-se que:


É importante notar que os valores estimados de Y podem ser diferentes dos valores observados de Y. As diferenças entre esses dois valores são chamados de desvios ou resíduos, que indicaremos por e. Então, para X= 3, uma vez que Y observado é 4 e Y estimado é 5, segue-se que:

 Os demais desvios estão na Tabela 3.

         Tabela 3              

A estimativa da variância da regressão, que indicaremos por s2, é dada pela soma dos quadrados dos desvios (também apresentada na Tabela 3) dividida pelos respectivos graus de liberdade (n-2). Então, a variância é obtida pela fórmula:


No caso do exemplo que estamos desenvolvendo: 


   O teste t é usado para testar hipóteses sobre os coeficientes de regressão, no caso de uma regressão linear simples, desde que seja razoável pressupor que os erros são variáveis aleatórias independentes com distribuição normal de média zero e variância s2.

     Para testar a hipótese de que o coeficiente angular é 1 (H0: 
b =1), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que b é a estimativa de b e s(b) é o erro padrão da estimativa. O valor de s(b) é dado pela fórmula:


    Para obter s(b), é preciso calcular o somatório que está no denominador da fração. Precisamos então da média de X:


Vamos então construir uma tabela.

Tabela 4
Com o valor já calculado de s2, obtemos:

Para testar a hipótese de que o coeficiente angular é 1 (H0: b =1), calculamos:
Para um teste bilateral, o valor crítico de t com 8 graus de liberdade no nível de significância de 5% é 2,306. Não rejeitamos a hipótese de que b= 1.

    Para testar a hipótese de que o coeficiente linear é 0 (H0: a =0), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que a é a estimativa de a e s(a) é seu erro padrão. O valor de s(a) é dado pela fórmula:

    Então, para o exemplo:



    Para testar a hipótese de que o coeficiente linear é 1 (H0: 
a = 0), calculamos:

    Para um teste bilateral, o valor crítico de t com 8 graus de liberdade, no nível de significância de 5% é 2,306. Rejeitamos a hipótese de que a = 0.


Sunday, September 01, 2019

VARIAÇÃO PERCENTUAL


       A variação percentual expressa a medida com que uma variável ganha ou perde intensidade, magnitude, extensão ou valor entre dois períodos distintos, em relação a um desses períodos.

                    3% excedem 2% em 50%, não em 1%.
      Por exemplo, o Instituto Nacional de Pesquisas Espaciais (INPE) alertou para o desmatamento na Amazônia Legal no mês de junho de 2019: 920,4 km². No mesmo período do ano anterior, isto é, em junho de 2018, o alerta para o desmatamento na Amazônia Legal havia sido de 489,6 km².  A diferença entre esses dois períodos foi de

A variação percentual foi de


  Um aumento percentual de 88% em relação ao mesmo período do ano anterior é alto, qualquer que seja a variável em análise. Posto em termos de alerta para o desmatamento na Amazônia, significa que o alerta em 2019 foi 88% maior do que o alerta feito em 2018, para o mesmo mês, junho. Não significa, obviamente, 88% de desmatamento dos 5.217.423 km² da Amazônia Legal. Veja os dados do INPE e confira: o alerta para o desmatamento na Amazônia foi maior, prenúncio da queimada que estava por vir.
Outro exemplo trata a taxa de mortalidade infantil, importante indicador social. Por definição, taxa de mortalidade infantil é a frequência de óbitos infantis (menores de um ano) em relação ao número de nascidos vivos em uma dada população, em determinado ano civil. É, portanto, uma estimativa da probabilidade de um recém-nascido não completar o primeiro ano de vida.
De acordo com o Instituto Brasileiro de Geografia e Estatística (IBGE), a taxa de mortalidade infantil no Brasil era de 13,3 óbitos por mil nascidos vivos em 2015 e 14,0 em 2016. A taxa de mortalidade infantil cresceu nesse período, fato que não ocorria desde 1990.
Para saber a diferença em pontos percentuais, é preciso, primeiramente, transformar a taxa de mortalidade infantil, que é dada por mil nascidos vivos, em porcentagem. Então: 13,3‰ significam 1,33% óbitos em 2015; 14,0‰ significam 1,40% óbitos em 2016. A diferença é
A variação percentual foi positiva, indicando aumento relativo da taxa de mortalidade infantil. Veja o cálculo:
Em 2017, a taxa de mortalidade infantil recuou: de 14 óbitos por mil nascidos vivos em 2016 para 12,8 óbitos em 2017. Então: 14,0‰ significam 1,40% óbitos (em 2016) e 12,8‰ significam 1,28% (em 2017). A diferença é
 A variação percentual foi negativa, indicando diminuição da mortalidade infantil de 2016 para 2017 em:

E já que estamos falando em percentuais, vale lembrar que, de acordo com Albert Einstein:

             “Genius is 1% talent and 99% percent hard work...”

                       Leia no celular


            Você acha no Kindle da Amazon, por R$9,00.