Você só deve traçar uma reta para descrever um fenômeno se, no intervalo estudado, a relação entre as duas variáveis é expressa por uma reta. Para saber se a reta é, de fato, o modelo adequado para descrever o fenômeno, existem dois procedimentos: ou você conhece a teoria que diz que o fenômeno é linear ou você “vê que a relação é linear”, olhando o gráfico.
Sunday, December 23, 2018
Regressão linear simples
Você só deve traçar uma reta para descrever um fenômeno se, no intervalo estudado, a relação entre as duas variáveis é expressa por uma reta. Para saber se a reta é, de fato, o modelo adequado para descrever o fenômeno, existem dois procedimentos: ou você conhece a teoria que diz que o fenômeno é linear ou você “vê que a relação é linear”, olhando o gráfico.
Sunday, December 09, 2018
Kolmogorov- Smirnov : teste de normalidade
Aplicamos o teste de aderência de Kolmogorov-Smirnov para verificar se determinada amostra provém de uma população com distribuição específica. Essa “distribuição específica” é, na maioria das vezes, a distribuição normal. Nesses casos, podemos dizer que estamos usando o teste de normalidade de Kolmogorov-Smirnov.
Vamos ver, por meio de um exemplo, o procedimento
para testar a hipótese de que os erros em torno da média seguem uma
distribuição normal, utilizando o teste de normalidade de Kolmogorov-Smirnov.
EXEMPLO
Com um cronômetro na mão para medir o período de oscilação de um pêndulo, você realiza n = 20 medições. Os resultados estão apresentados na Tabela 1.
Tabela 1
Leituras do período de oscilação de um pêndulo, em segundos
Desvios da média das leituras do período
de oscilação de um pêndulo, em segundos
A média dos desvios é:
Como essa média é igual a zero, o desvio padrão é dado por:
Podemos organizar os dados em uma tabela de
distribuição de frequências (Tabela 3) e desenhar o histograma correspondente,
apresentado na Figura 1.
Tabela 3
Tabela de distribuição de frequências
Histograma dos desvios da média das leituras do período
de oscilação de um pêndulo, em segundos
Podemos sobrepor ao histograma uma curva normal
com a mesma média e desvio padrão dos desvios apresentados na Tabela 2. Veja a Figura
2.
Figura 2
Distribuição normal sobreposta ao histograma
Para aplicar o teste de
Kolmogorov-Smirnov:
1.
Calcule as frequências
acumuladas (FAᵢ) dos desvios.
2.
Calcule as frequências
relativas acumuladas (FRAᵢ) dos desvios.
3. Calcule o valor padronizado (ou estandardizado) zᵢ para cada desvio dᵢ . A média será sempre zero, mas para o exemplo em questão, o desvio padrão calculado é s = 0,1487s. Então, neste caso:
4. Determine as probabilidades acumuladas Pᵢ dos desvios padronizados sob a distribuição normal padronizada. Veja a Figura 3, em que a probabilidade acumulada até z = −1 está destacada em cinza azulado.
Figura 3
Probabilidade acumulada sob a distribuição normal padronizada
5.
Calcule os valores
absolutos das diferenças Dᵢ entre as
frequências relativas acumuladas dos desvios (FRAᵢ) e as probabilidades acumuladas (Pᵢ).
6.
Calcule os valores
absolutos das diferenças Dᵢ’ entre as probabilidades acumuladas (Pᵢ) e as frequências relativas acumuladas da classe imediatamente
anterior (FRAᵢ₋₁).
7.
Compare o
maior valor observado entre Dᵢ e Dᵢ’ com o valor
crítico D obtido na tabela de valores críticos do teste de
Kolmogorov-Smirnov para dados contínuos. A estatística de teste é:
8. Rejeite a hipótese H0 de que os desvios seguem distribuição normal se a estatística D calculada for maior que o valor crítico correspondente ao nível de significância estabelecido e ao tamanho da amostra. Veja os resultados desses cálculos na Tabela 4.
Cálculos auxiliares para o teste de aderência de Kolmogorov-Smirnov
O valor máximo encontrado para D foi 0,150,
menor que o valor crítico para o nível de significância de 5% e tamanho
amostral 20. Portanto, não se rejeita a hipótese de que a distribuição
dos desvios é normal.
Valores críticos para D para o teste de aderência de
Kolmogorov-Smirnov para variáveis contínuas
Fonte: ZAR,J. Biostatistical Analysis. 4 ed. Prentice Hall. 1995.
Comentário Adicional
É bastante comum, quando se
pretende aplicar uma análise de variância (ANOVA) aos dados experimentalmente,
que se faça a pressuposição de que os erros são variáveis aleatórias
independentes com distribuição normal. Veja um exemplo.
EXEMPLO
Todo produtor
de milho quer ter maior produtividade. Imagine que um produtor colocou à disposição de um
agrônomo uma pequena área onde foi possível alocar 20 parcelas para a
experimentação de três híbridos além do que chamaremos testemunha, ou seja, o
que o produtor planta em sua propriedade. A Tabela 6 apresenta os dados segundo o
tratamento e, no rodapé,
as médias. Até que ponto as diferenças observadas entre as médias dos
tratamentos são suficientemente grandes para serem tomadas como evidência de
que há diferença significante entre eles? A resposta para essa pergunta é dada
por uma análise de variância, que testa a hipótese de que as médias
populacionais são iguais, isto é:
contra a hipótese alternativa de que existe pelo menos uma média diferente das demais.
Tabela 5
Produtividade de milho segundo
o tratamento
Outros testes de normalidade
Há vários
testes de aderência à distribuição normal. Alguns deles, como o de Anderson-Darling
e o de Cramer-von Mises (1) são, na realidade, melhoramentos feitos sobre o teste
de Kolmogorov- Smirnov[1]. Como são mais poderosos, são preferidos por
muitos analistas.
Vamos
apresentar aqui (só para exemplo) o que se faz comumente na prática de
estatística. São os testes de Shapiro-Wilk e um plot. Normalmente o Q-Q plot.
Resultado
do teste de Shapiro-Wilk
· Estatística W: 0.9396
· Valor-p: 0.2359
· Média dos resíduos: 0.0000
· Desvio padrão dos resíduos: 2.4279
Com p-valor = 0.2359 (> 0.05), não rejeitamos a hipótese da nulidade: os resíduos seguem uma distribuição normal.
O teste de Shapiro-Wilk, proposto em 1965, tem se saído muito bem nos estudos
de comparação com outros testes de aderência. Usa uma estatística complicada,
que não será dada aqui. Para bem entender a estatística de teste, veja o
trabalho original[2]. Mas é comum nos
programas de computador e deve ser preferido quando a amostra é pequena.
Q-Q plot dos resíduos (desvios): os pontos seguem bem a linha
vermelha, o que confirma a normalidade dos resíduos observada no teste
de Shapiro-Wilk.
Figura 4
Q-Q Plot dos Resíduos (Desvios)