Sunday, December 09, 2018

Kolmogorov- Smirnov : teste de normalidade

Aplicamos o teste de aderência de Kolmogorov-Smirnov para verificar se determinada amostra provém de uma população com distribuição específica. Essa “distribuição específica” é, na maioria das vezes, a distribuição normal. Nesses casos, podemos dizer que estamos usando o teste de normalidade de Kolmogorov-Smirnov.

Vamos ver, por meio de um exemplo, o procedimento para testar a hipótese de que os erros em torno da média seguem uma distribuição normal, utilizando o teste de normalidade de Kolmogorov-Smirnov.

EXEMPLO


Com um cronômetro na mão para medir o período de oscilação de um pêndulo, você realiza = 20 medições. Os resultados estão apresentados na Tabela 1. 

A média aritmética das n=20 medidas é a melhor estimativa para o período de oscilação:

Tabela 1
Leituras do período de oscilação de um pêndulo, em segundos
 

              A média aritmética das n=20 medidas é a melhor estimativa para o                                  período de oscilação:
             Os desvios em relação à média estimamos erros de medição. Veja a                                  Tabela  2. 

 Tabela 2

Desvios da média das leituras do período
de oscilação de um pêndulo, em segundos
 

A média dos desvios é: 

                            

Como essa média é igual a zero, o desvio padrão é dado por: 

Podemos organizar os dados em uma tabela de distribuição de frequências (Tabela 3) e desenhar o histograma correspondente, apresentado na Figura 1.

Tabela 3
Tabela de distribuição de frequências

 Figura 1

Histograma dos desvios da média das leituras do período
de oscilação de um pêndulo, em segundos

 

Podemos sobrepor ao histograma uma curva normal com a mesma média e desvio padrão dos desvios apresentados na Tabela 2. Veja a Figura 2.

Figura 2
Distribuição normal sobreposta ao histograma

 

Para aplicar o teste de Kolmogorov-Smirnov:

1.    Calcule as frequências acumuladas (FA) dos desvios.

2.   Calcule as frequências relativas acumuladas (FRA) dos desvios.

3.   Calcule o valor padronizado (ou estandardizado) z para cada desvio d . A média será sempre zero, mas para o exemplo em questão, o desvio padrão calculado é = 0,1487s. Então, neste caso:

                         

4.     Determine as probabilidades acumuladas P dos desvios padronizados sob a distribuição normal padronizada. Veja a Figura 3, em que a probabilidade acumulada até z = −1  está destacada em cinza azulado. 

Figura 3
Probabilidade acumulada sob a distribuição normal padronizada

 

5.   Calcule os valores absolutos das diferenças D entre as frequências relativas acumuladas dos desvios (FRA) e as probabilidades acumuladas (P).

6.   Calcule os valores absolutos das diferenças D entre as probabilidades acumuladas (P) e as frequências relativas acumuladas da classe imediatamente anterior (FRAᵢ₋).

7.   Compare o maior valor observado entre D e D com o valor crítico D obtido na tabela de valores críticos do teste de Kolmogorov-Smirnov para dados contínuos. A estatística de teste é:

8.   Rejeite a hipótese H0 de que os desvios seguem distribuição normal se a estatística D calculada for maior que o valor crítico correspondente ao nível de significância estabelecido e ao tamanho da amostra. Veja os resultados desses cálculos na Tabela 4.                            

                                                      Tabela 4

              Cálculos auxiliares para o teste de aderência de Kolmogorov-Smirnov 

O valor máximo encontrado para D foi 0,150, menor que o valor crítico para o nível de significância de 5% e tamanho amostral 20. Portanto, não se rejeita a hipótese de que a distribuição dos desvios é normal.

Valores críticos para D para o teste de aderência de

Kolmogorov-Smirnov para variáveis contínuas

       Fonte: ZAR,J. Biostatistical Analysis. 4 ed. Prentice Hall. 1995.

                                  Comentário Adicional

É bastante comum, quando se pretende aplicar uma análise de variância (ANOVA) aos dados experimentalmente, que se faça a pressuposição de que os erros são variáveis aleatórias independentes com distribuição normal. Veja um exemplo.


EXEMPLO

 

Todo produtor de milho quer ter maior produtividade. Imagine que um produtor colocou à disposição de um agrônomo uma pequena área onde foi possível alocar 20 parcelas para a experimentação de três híbridos além do que chamaremos testemunha, ou seja, o que o produtor planta em sua propriedade. A Tabela 6 apresenta os dados segundo o tratamento e, no rodapé, as médias. Até que ponto as diferenças observadas entre as médias dos tratamentos são suficientemente grandes para serem tomadas como evidência de que há diferença significante entre eles? A resposta para essa pergunta é dada por uma análise de variância, que testa a hipótese de que as médias populacionais são iguais, isto é:

contra a hipótese alternativa de que existe pelo menos uma média diferente das demais. 

                                                         Tabela 5

 Produtividade de milho segundo o tratamento


Outros testes de normalidade

Há vários testes de aderência à distribuição normal. Alguns deles, como o de Anderson-Darling e o de Cramer-von Mises (1) são, na realidade, melhoramentos feitos sobre o teste de Kolmogorov- Smirnov[1]. Como são mais poderosos, são preferidos por muitos analistas.

Vamos apresentar aqui (só para exemplo) o que se faz comumente na prática de estatística. São os testes de Shapiro-Wilk e um plot. Normalmente o Q-Q plot.

Resultado do teste de Shapiro-Wilk

·     Estatística W: 0.9396

·     Valor-p: 0.2359

·     Média dos resíduos: 0.0000

·     Desvio padrão dos resíduos: 2.4279

Com p-valor = 0.2359 (> 0.05), não rejeitamos a hipótese da nulidade: os resíduos seguem uma distribuição normal. 

O teste de Shapiro-Wilk, proposto em 1965, tem se saído muito bem nos estudos de comparação com outros testes de aderência. Usa uma estatística complicada, que não será dada aqui. Para bem entender a estatística de teste, veja o trabalho original[2]. Mas é comum nos programas de computador e deve ser preferido quando a amostra é pequena.

                                      Q-Q Plot dos Resíduos (Desvios) 

Q-Q plot dos resíduos (desvios): os pontos seguem bem a linha vermelha, o que confirma a normalidade dos resíduos observada no teste de Shapiro-Wilk.


Figura 4


Q-Q Plot dos Resíduos (Desvios)


 

                     [1] Kolmogorov-Smirnov Goodness-of-Fit Test. https://www.itl.nist.gov/div898/handbook/eda/.../eda35g.htm
                          [2]The Shapiro-Wilk and related tests for normality. https://math.mit.edu/~rmd/465/shapiro.pdf




2 comments:

MK said...

Boa tarde, Professora Sonia!

Gostaria de comprar o livro: Elementos de Estatística (6ed), Como elaborar um questionário, porém não acho em nenhuma livraria. Como faço para comprar?

Parabéns pelo blog! Ótimas postagens!


Monique

Sonia Vieira said...

Bom dia, Monique. A Editora Atlas houve por bem mudar o título. Chama-se hoje Fundamentos de Estatística, 6 ed, 2018. Obrigada. Sonia