Sonia Vieira: Regressão linear simples: o ajuste de uma reta

A análise de regressão é uma técnica estatística que busca estabelecer a relação entre duas ou mais variáveis. A regressão linear simples busca explicar a relação entre apenas duas variáveis, X e Y, por meio de uma reta. Por exemplo, um estatístico pode querer saber se existe relação entre a quantidade de propaganda de determinado produto (X) e o número de unidades vendidas (Y). Um exemplo numérico com dados fictícios está apresentado na Tabela 1 e no diagrama de dispersão do Gráfico 1.

Olhando o diagrama de dispersão do exemplo, você percebe que não pode achar uma reta que passe sobre todos os pontos. Logo, não existe uma função matemática que dê o valor de Y em função de X. No entanto, o diagrama de dispersão dá a ideia de que existe uma reta em torno da qual os dados se distribuem. Esta é uma relação estatística, expressa pelo modelo:

Nesse modelo de regressão, X é a variável independente ou explicativa e Y é variável dependente ou resposta; e são erros aleatórios.

Os valores a e b são parâmetros; a é o coeficiente linear e b é o coeficiente angular. A verdadeira reta de regressão não é conhecida. No entanto, podemos obter as estimativas a e b de a e b usando as fórmulas:

As fórmulas são obtidas pelo método dos quadrados mínimos. A reta de regressão estimada, usando os valores calculados de a e b é chamada de reta ajustada.

Vamos obter as estimativas a e b da reta ajustada aos dados do exemplo apresentado. Facilita construir uma tabela com cálculos auxiliares, como a Tabela 2. As somas que constam das fórmulas estão no rodapé dessa tabela.
Tabela 2

A reta ajustada é:

Ajustada a reta de regressão, podem ser obtidos os valores ajustados de Y para cada valor de X. Por exemplo, para X= 3, segue-se que:

É importante notar que os valores estimados de Y podem ser diferentes dos valores observados de Y. As diferenças entre esses dois valores são chamados de desvios ou resíduos, que indicaremos por e. Então, para X= 3, uma vez que Y observado é 4 e Y estimado é 5, segue-se que:

Os demais desvios estão na Tabela 3.

Tabela 3

A estimativa da variância da regressão, que indicaremos por s²,é dada pela soma dos quadrados dos desvios (também apresentada na Tabela 3) dividida pelos respectivos graus de liberdade (n-2). Então, a variância é obtida pela fórmula:

No caso do exemplo que estamos desenvolvendo:

O teste t é usado para testar hipóteses sobre os coeficientes de regressão, no caso de uma regressão linear simples, desde que seja razoável pressupor que os erros são variáveis aleatórias independentes com distribuição normal de média zero e variância s².

Para testar a hipótese de que o coeficiente angular é 1 (H₀:b =1), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é:

em que b é a estimativa de b e s(b) é o erro padrão da estimativa. O valor de s(b) é dado pela fórmula:

Para obter s(b), é preciso calcular o somatório que está no denominador da fração. Precisamos então da média de X:

Vamos então construir uma tabela.

Tabela 4

Com o valor já calculado de s², obtemos:

Para testar a hipótese de que o coeficiente angular é 1 (H₀:b =1), calculamos:

Para um teste bilateral, o valor crítico de t com 8 graus de liberdade no nível de significância de 5% é 2,306. Não rejeitamos a hipótese de que b= 1.

Para testar a hipótese de que o coeficiente linear é 0 (H₀:a =0), contra a hipótese alternativa de que é diferente de 1, a estatística de teste é: