Sunday, September 29, 2019

Estudos ao longo do tempo



 Estudos longitudinais ou prospectivos fazem medições repetidas das mesmas pessoas ao longo do tempo, enquanto estudos transversais coletam dados em apenas determinado momento. Os estudos longitudinais são mais informativos, mas têm limitações. A maior dificuldade está na perda de observações. Nem todos os participantes de pesquisa estão presentes em todas as sessões que foram inicialmente planejadas na pesquisa.

Ocorrem muitas desistências, principalmente nos estudos longitudinais de longa duração. Desistências prejudicam os resultados. Participantes que permanecem até o final do estudo podem ser diferentes daqueles que se retiram em diferentes momentos. Também ocorrem perdas mesmo quando não há desistências. Se as pessoas puderem faltar em uma ou mais sessões, o número de participações de cada uma pode variar ao longo do estudo. Ainda, as medições podem não ficar igualmente espaçadas porque nem todos os participantes têm tempo disponível na mesma ocasião.

As dificuldades para análise não param, porém, por aqui. Existe correlação entre medidas sucessivas tomadas na mesma pessoa. A análise estatística precisa, portanto, considerar a auto correlação dos resíduos, para que as conclusões não fiquem prejudicadas. Mas além da correlação que aparece devido às medidas feitas repetidamente nas mesmas pessoas, há, ainda, a correlação explicada pelo agrupamento de pessoas em escolas, clínicas, hospitais, cidades. Embora a correlação produzida pelo agrupamento seja bem menor do que aquela produzida pela repetição de medidas no mesmo participante, ainda assim pode levar a subestimação da variância, se o efeito do agrupamento não for levado em conta na análise.

De qualquer modo, estudos longitudinais são comuns na literatura. No entanto, os procedimentos estatísticos para a análise desse tipo de estudo não aumentaram na mesma velocidade. Algumas maneiras de tratar os dados, que deveriam ter apenas interesse histórico, continuam na prática e métodos que apenas reduzem estudos longitudinais a estudos transversais também continuam em uso.

Algumas vezes, é feita uma “análise completa” (complete analysis), isto é, uma análise em que são considerados somente dados de participantes que completaram o estudo. Na maioria das vezes, porém, a amostra analisada é diferente da amostra de participantes que iniciaram o estudo. Se apenas participantes cooperativos completarem o estudo, os resultados podem ser tendenciosos.   

Outra maneira de contornar o problema é considerar que medidas que seriam obtidas depois de o participante deixar de comparecer seriam iguais à medida feita em sua última visita. Essa abordagem é denominada “última observação levada adiante” (last observation carried forward LOCF). Assumimos assim que, uma vez que o participante abandonou o estudo, seu nível de resposta permanecerá inalterado por longo tempo. Mas não há lógica em acreditar nisso. No entanto, a abordagem LOCF continua a ser usada porque é conservadora. Uma crítica ao uso da LOCF é a de que ela pode dar a falsa impressão de que essa é a forma adequada de contornar ao problema dos dados perdidos. Então os pesquisadores podem deixar de se preocupar com a falta de adesão à pesquisa científica e deixar de trabalhar contra isso. E, ainda, cumpre lembrar que uma medida da qualidade do trabalho clínico é o número de participantes que se apresentaram em todas as visitas.

 Na análise de dados longitudinais também é aplicada uma ANOVA de modelo misto, ou seja, uma análise de variância em que cada participante da pesquisa é tomado como um critério de classificação de efeitos aleatórios. Esse tipo de análise é muitas vezes identificado como ANOVA para medidas repetidas. Aqui, a pressuposição implícita é a de que a variação entre indivíduos é constante ao longo do tempo. No entanto, parece mais razoável considerar que a variação entre indivíduos mude ao longo do tempo. Considerando essa observação como limitação, a ANOVA para medidas repetidas não deveria ser usada para análise de dados longitudinais.

Foram desenvolvidas algumas abordagens mais rigorosas para tratar dados longitudinais, com suposições mais realistas sobre o processo de resposta longitudinal e com procedimentos mais adequados para tratar dados perdidos. Entre elas, estão os modelos de equações de estimativa generalizada (GEE). Você pode usar softwares como R e SAS se quiser aplicar GEE em estudos que acompanham pessoas ao longo do tempo.

               VEJA:

 

 

              1.  Laird NM. Missing data in longitudinal studies. Stat Med. 1988; 7:305–15. [PubMed] [Google Scholar]

        2. Gibbons R D,  Hedeker D, DuToit S. Advances in Analysis of Longitudinal  Data.  Annu Rev Clin Psychol. 2010 Apr 27; 6: 79–107.


Thursday, September 19, 2019

Regressão linear pela origem: quando forçar o intercepto ao valor zero


 Em análises de regressão, o modelo mais comum inclui um termo de intercepto (constante). No entanto, em situações específicas, somos obrigados a forçar a reta de regressão a passar pela origem do plano cartesiano (ponto (0,0)). Essa decisão pode ser motivada por razões teóricas sólidas ou por evidências empíricas anteriores.

Por que usar um modelo sem intercepto?

Dois exemplos clássicos ilustram essa necessidade:

1.                   Movimento Retilíneo Uniforme: Na Física, se um corpo parte do repouso em uma trajetória retilínea, no instante inicial (tempo zero) a distância percorrida é necessariamente zero. Um modelo que não passe pela origem não faria sentido físico.

2.                   Módulo de Young: Na Engenharia de Materiais, o módulo de Young, que mede a rigidez de um material, é definido pela inclinação da curva tensão-deformação no regime elástico. Se não há tensão aplicada, não há deformação. Portanto, a reta que modela esse comportamento deve passar pela origem.

A Figura 1 ilustra essa relação no contexto do módulo de Young.

                                                     Figura 1


Embora a regressão linear simples sem intercepto tenha utilidade em estatística aplicada, é recomendável compará-la com um modelo que inclua o termo de interceptação. A decisão sobre qual modelo utilizar pode ser controversa e depende do contexto da análise.

O Modelo Matemático

Ao impor que a reta passe pela origem, nosso modelo simplifica para:

Onde:

      ·     é a variável independente.

      ·     Y é a variável dependente.

      ·    b  é o parâmetro (coeficiente angular) que queremos estimar.

      ·    e é o termo de erro aleatório.

      A estimativa de b  é dada pela fórmula:

 

A reta de regressão ajustada é, portanto:

                                                 

Os desvios ou resíduos são dados por

 

Avaliando o Ajuste do Modelo

Uma diferença crucial em relação ao modelo com intercepto é que a soma dos resíduos (Σei) não é necessariamente zero. Ao forçar a reta a passar por (0,0), perdemos o grau de liberdade que "ajustava" a altura da reta para minimizar os resíduos.

Para avaliar a qualidade do ajuste, recorremos à análise de variância (ANOVA). Os graus de liberdade são ajustados da seguinte forma:

·      SQ Total: n graus de liberdade.

·      SQ Regressão: k graus de liberdade (onde k=1).

·      SQ Resíduo: n-k graus de liberdade.


As somas de quadrados são dadas pelas fórmulas:



 Podemos, então, construir a tabela de análise de variância (ANOVA) apresentada na Tabela 1. 


Exemplo Prático

Considere os dados da Tabela 2, para os quais vamos ajustar um modelo que passa pela origem. Os resultados da ANOVA estão na Tabela 3.


Logo, a equação da reta de regressão é:


Também podem ser calculados os valores do desvio padrão (s), do coeficiente de determinação (R2) e o valor do teste t para o coeficiente angular b. Veja as fórmulas:


Para os dados do exemplo:


A Figura 2 apresenta os valores observados, os valores obtidos pela reta de regressão e a reta ajustada.

O “output” do Minitab está apresentada em seguida.








Saturday, September 14, 2019

Regressão linear simples: o ajuste de uma reta

 A análise de regressão é uma técnica estatística que busca estabelecer a relação entre duas ou mais variáveis. A regressão linear simples busca explicar a relação entre apenas duas variáveis, X e Y, por meio de uma reta. Por exemplo, um estatístico pode querer saber se existe relação entre a quantidade de propaganda de determinado produto (X) e o número de unidades vendidas (Y). Um exemplo numérico com dados fictícios está apresentado na Tabela 1 e no diagrama de dispersão do Gráfico 1.
Olhando o diagrama de dispersão do exemplo, você percebe que não pode achar uma reta que passe sobre todos os pontos. Logo, não existe uma função matemática que dê o valor de Y em função de X. No entanto, o diagrama de dispersão dá a ideia de que existe uma reta em torno da qual os dados se distribuem. Esta é uma relação estatística, expressa pelo modelo:
Nesse modelo de regressão, X é a variável independente ou explicativa e Y é variável dependente ou resposta; e são erros aleatórios.
 Os valores b são parâmetros; a é o coeficiente linear e b é o coeficiente angular. A verdadeira reta de regressão não é conhecida. No entanto, podemos obter as estimativas a e b de ab usando as fórmulas:

   As fórmulas são obtidas pelo método dos quadrados mínimos. A reta de regressão estimada, usando os valores calculados de a e b é chamada de reta ajustada.   
Vamos obter as estimativas a e b da reta ajustada aos dados do exemplo apresentado. Facilita construir uma tabela com cálculos auxiliares, como a Tabela 2. As somas que constam das fórmulas estão no rodapé dessa tabela.
                                               Tabela 2


 A reta ajustada é:
Ajustada a reta de regressão, podem ser obtidos os valores ajustados de Y para cada valor de X. Por exemplo, para X= 3, segue-se que:


É importante notar que os valores estimados de Y podem ser diferentes dos valores observados de Y. As diferenças entre esses dois valores são chamados de desvios ou resíduos, que indicaremos por e. Então, para X= 3, uma vez que Y observado é 4 e Y estimado é 5, segue-se que:

 Os demais desvios estão na Tabela 3.

         Tabela 3              

A estimativa da variância da regressão, que indicaremos por s2, é dada pela soma dos quadrados dos desvios (também apresentada na Tabela 3) dividida pelos respectivos graus de liberdade (n-2). Então, a variância é obtida pela fórmula:

No caso do exemplo que estamos desenvolvendo: 
   O teste t é usado para testar hipóteses sobre os coeficientes de regressão, no caso de uma regressão linear simples, desde que seja razoável pressupor que os erros são variáveis aleatórias independentes com distribuição normal de média zero e variância s2.

     Para testar a hipótese de que o coeficiente angular é 1 (H0: 
b =1), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que b é a estimativa de b e s(b) é o erro padrão da estimativa. O valor de s(b) é dado pela fórmula:

    Para obter s(b), é preciso calcular o somatório que está no denominador da fração. Precisamos então da média de X:

Vamos então construir uma tabela.

Tabela 4
Com o valor já calculado de s2, obtemos:

Para testar a hipótese de que o coeficiente angular é 1 (H0: b =1), calculamos:
Para um teste bilateral, o valor crítico de t com 8 graus de liberdade no nível de significância de 5% é 2,306. Não rejeitamos a hipótese de que b= 1.

    Para testar a hipótese de que o coeficiente linear é 0 (H0: a =0), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que a é a estimativa de a e s(a) é seu erro padrão. O valor de s(a) é dado pela fórmula:

    Então, para o exemplo:

    Para testar a hipótese de que o coeficiente linear é 1 (H0: 
a = 0), calculamos:

    Para um teste bilateral, o valor crítico de t com 8 graus de liberdade, no nível de significância de 5% é 2,306. Rejeitamos a hipótese de que a = 0.