Sunday, December 09, 2018

Kolmogorov- Smirnov : teste de normalidade


Aplicamos o teste de aderência de Kolmogorov-Smirnov para verificar se determinada amostra vem de população com distribuição específica. Essa “distribuição específica” é, na maioria das vezes, a distribuição normal. Nesses casos, podemos dizer que estamos usando o teste de normalidade de Kolmogorov-Smirnov.

Vamos ver, por meio de um exemplo, o procedimento para testar a hipótese de que erros em torno da média têm distribuição normal, usando o teste de normalidade de Kolmogorov-Smirnov.
EXEMPLO
Com um cronômetro na mão para medir o período de oscilação de um pêndulo, você faz n=20 medições. Os resultados estão na Tabela 1.

                                               Tabela 1
           Leituras do período de oscilação de um pêndulo, em segundos


A média aritmética das n=20 medidas é a melhor estimativa para o período de oscilação:

Os desvios da média, apresentados na Tabela 2, estimam os erros de medida. 
Tabela 2
Desvios da média das leituras do período
 de oscilação de um pêndulo, em segundos


A média dos desvios é
Como a média é igual a zero, o desvio padrão é dado por
Podemos organizar os dados na Tabela 3, de distribuição de frequências, e desenhar o histograma apresentado na Figura 1.
Tabela 3
Tabela de distribuição de frequências



Figura 1
Histograma para os desvios da média das leituras do período
 de oscilação de um pêndulo, em segundos


Podemos desenhar, sobre o histograma, a distribuição normal, com a mesma média e desvio padrão dos desvios apresentados na Tabela 2. Veja a Figura 2. 
                                                    Figura 2
                 Distribuição normal desenhada sobre o histograma

  Para aplicar o teste de Kolmogorov-Smirnov:
1.    As frequências acumuladas (FAi) dos desvios.
2.   As frequências relativas  acumuladas (FRAi) dos desvios.
3.    O valor padronizado (ou estandartizado) zi para cada desvio di. A média será sempre zero mas, para o exemplo que estamos desenvolvendo, o desvio padrão calculado é s= 0,1487. Então, no exemplo:
4. As probabilidades acumuladas Pi  dos desvios padronizados sob a distribuição normal padronizada. Veja a Figura 3, em que a probabilidade acumulada até -1 está em cinza azulado.
Figura 3
Probabilidade acumulada sob a distribuição normal padronizada 


5. Os valores absolutos das diferenças Di entre as frequências relativas acumuladas dos desvios FRAi e as probabilidades acumuladas Pi  dos desvios.
6. Os valores absolutos das diferenças Dientre as probabilidades acumuladas Pi dos desvios e as frequências relativas acumuladas dos desvios de uma classe imediatamente anterior FRAi.
7.  Compare a maior estatística Di ou Di’ observada com o valor de D obtido em uma tabela de valores críticos de D para o teste de aderência de Kolmogorov-Smirnov para dados contínuos. A estatística de teste é:
8.   Rejeite a hipótese de que os desvios têm distribuição normal (a hipótese de nulidade) se a estatística D calculada for maior que a crítica dada na Tabela 5, ao nível estabelecido de significância e para o tamanho de amostra[1]. Veja os resultados desses cálculos na Tabela 4.

Tabela 4 
Cálculos auxiliares para o teste de aderência de Kolmogorov Smirnov

    O valor máximo encontrado para D foi 0,150, menor que o valor crítico para o nível de significância de 5%, com tamanho de amostra 20. Então não se rejeita a hipótese de que a distribuição é normal.
 Tabela 5

           Fonte: ZAR,J. Biostatistical Analysis. 4 ed. Prentice Hall. 1994.
Veja o resultado obtido pelo teste, feito no programa SPSS: não se rejeita a hipótese de normalidade. 


É bastante comum, quando se pretende aplicar uma análise de variância (ANOVA) aos dados experimentalmente, que se faça a pressuposição de que os erros são variáveis aleatórias independentes com distribuição normal. Veja um exemplo.
EXEMPLO

Todo produtor de milho quer ter maior produtividade. Imagine que um produtor colocou à disposição de um agrônomo uma área onde é possível alocar 20 parcelas para a experimentação de três híbridos além do que chamaremos testemunha, ou seja, o que o produtor planta em sua propriedade. A Tabela 6 apresenta os dados segundo o tratamento e, no rodapé, as médias. Até que ponto as diferenças observadas entre as médias dos tratamentos são suficientemente grandes para serem tomadas como evidência de que há diferença significante entre eles? A resposta para essa pergunta é dada por uma análise de variância, que testa a hipótese de que as médias populacionais são iguais, isto é:
contra a hipótese alternativa de que existe pelo menos uma média diferente das demais. 
Tabela 6
 Produtividade de milho em kg/100 m2 segundo o tratamento

Teste a hipótese de que os erros têm distribuição normal. A média geral dos desvios é zero e o desvio padrão é 2,4279.

Outros testes de normalidade

Há vários testes de aderência à distribuição normal. Alguns deles, como o de Anderson- Darling e o de Kramer-von Mises são, na realidade, melhoramentos feitos sobre o teste de Kolmogorov- Smirnov[1]. Como são mais poderosos, são preferidos por muitos analistas.
     O teste de Shapiro-Wilk, proposto em 1965, tem se saído muito bem nos estudos de comparação com outros testes de aderência. Usa uma estatística complicada, que não será dada aqui. Para bem entender a estatística de teste, veja o trabalho original[2]. Mas é comum nos programas de computador e deve ser preferido quando a amostra é pequena. Veja o resultado obtido no teste de Shapiro-Wilk no exemplo anterior. E não se impressione com a diferença entre os valores p: as estatísticas de teste são diferentes. Além disso, o teste de Shapiro-Wilk tem mais poder (rejeita H0 mais vezes).



[1] Kolmogorov-Smirnov Goodness-of-Fit Test. https://www.itl.nist.gov/div898/handbook/eda/.../eda35g.htm

[2]The Shapiro-Wilk and related tests for normality. https://math.mit.edu/~rmd/465/shapiro.pdf







2 comments:

MK said...

Boa tarde, Professora Sonia!

Gostaria de comprar o livro: Elementos de Estatística (6ed), Como elaborar um questionário, porém não acho em nenhuma livraria. Como faço para comprar?

Parabéns pelo blog! Ótimas postagens!


Monique

Sonia Vieira said...

Bom dia, Monique. A Editora Atlas houve por bem mudar o título. Chama-se hoje Fundamentos de Estatística, 6 ed, 2018. Obrigada. Sonia