Thursday, August 09, 2018

Kolmogorov-Smirnov: teste a aderência


                                             Função de distribuição empírica

Uma das principais finalidades da Estatística é estimar propriedades desconhecidas da população. Tais propriedades são, necessariamente, numéricas: proporções, médias etc.. As estimativas devem ser obtidas de amostras aleatórias, se a intenção do pesquisador for fazer inferência estatística. Vamos tratar aqui a função de distribuição empírica (empirical distribution function –EDF), um estimador diferente.

   Lembre-se de que a verdadeira função de distribuição de uma variável aleatória geralmente é desconhecida. Mas você pode ter alguma ideia de qual seria essa função de distribuição. Então use essa ideia como aproximação da função verdadeira.

   De qualquer forma, para ter uma boa ideia sobre a verdadeira função de distribuição de uma variável aleatória X convém observar n valores dessa variável, isto é, X1, X2,...Xn  e depois desenhar um gráfico S(x), para usar como estimativa da função de distribuição desconhecida F(x) que você presume (é sua hipótese), seja a função de distribuição de X. Mas como?

EXEMPLO

 É dado o tempo de corrida, em minutos, de cinco pessoas em determinado percurso:


Para desenhar o gráfico:

·         Coloque os dados em coluna em uma planilha e ordene.
·         Na coluna ao lado, escreva a proporção acumulada para cada dado na amostra. No exemplo, n = 5. Cada dado aparece na proporção de 1/5. Veja o que você obtém:


·         Construa um gráfico, colocando os valores observados no eixo das abscissas e as proporções acumuladas no eixo das ordenadas. Todas as proporções (que estão assinaladas) são iguais a 1/5.
                                           Figura 1

·         A função de distribuição empírica de S(x) é o número de valores amostrais menores ou iguais a x.

   A Figura 1 é uma apresentação de S(x), mas qualquer outra amostra provavelmente produziria outro gráfico, que seria diferente do que você fez. Isso mostra a natureza aleatória de S(x).

    Em certo sentido, S(x) é uma variável aleatória, porém é mais razoável dizer que S(x) é uma função aleatória porque é, de fato, uma função. Os valores observados produzem gráficos e não números. S(x) é uma função de distribuição empírica que estima a verdadeira função de distribuição da variável aleatória (chamaremos esta de função de distribuição da população) para distinguir da S(x).

                      O TESTE DE ADERÊNCIA DE KOLMOGOROV

Dados

X1, X2, ... Xn  são os dados de uma amostra aleatória de tamanho n com função de distribuição desconhecida, que indicaremos por F(x).

Hipótese

Seja F*(x) uma função de distribuição conhecida que você assumiu como sendo a de seus dados. Para um teste bilateral, sua hipótese é:
H0: F(x) = F*(x),                para todo x, de - ∞ a + ∞.
H1: F(x) ≠ F*(x)                 para pelo menos um valor de x.

S(x) é a função de probabilidade acumulada dos dados. A estatística de teste depende da hipótese formulada.

Para um teste bilateral: Seja a estatística de teste T a maior (o supremo, indicado por “sup”) distância vertical entre S(x) e F*(x).


que se lê “T é igual ao supremo do valor absoluto da diferença F*(x) - S(x) para todo x”.

Regra de decisão

Rejeite H0 no nível de significância a se T exceder o quantil w(1-a)  dado na Tabela de quantis para a estatística de teste de Kolmogorov, que está no final desta postagem. Essa tabela é exata somente se F*(x) for contínua. Caso contrário, os quantis levam a um teste conservador.

Exemplo

 Foram obtidos

0,503
0,203
0,477
0,710
0,581
0,329
0,480
0,554
0,382





















A hipótese é a de que a função de distribuição é uniforme. A função de distribuição acumulada está na Figura 2:

                         F*(x)= 0               para x < 0
                                  = x               para 0 ≤ x < 1
                                   = 1               para 1 ≤ x

                                                     Figura 2


Formalmente

H0: F(x) = F*(x),                para todo x.
H1: F(x) ≠ F*(x)                 para pelo menos um valor de x.

em que F(x) é a função de distribuição desconhecida e F*(x) refere-se à distribuição uniforme já definida.

    Para um teste bilateral, a região de rejeição a = 0,05 (logo, p = 1- a =0,95) para n = 10, corresponde a valores de T maiores do que o quantil 0,409. 

    O valor de T é obtido no gráfico que apresenta a função de distribuição empírica S(x) sobreposta à função de distribuição F*(x), conforme a hipótese.
                                                   Figura 3
                                             

A maior distância vertical entre os gráficos é 0,290 (em vermelho na Figura 3), quando x=0,710.

Veja que para x=0,710, a função de distribuição acumulada F*(x) =x=0,710. Para x=0,710, a função de distribuição acumulada S(x) =1,00.  

Escreve-se:


         Como T=0,290 é menor que 0,409, não se rejeita a hipótese da nulidade.


O texto foi escrito com base em 
Conover,W. J. Practical Nonparametric Statistics. Wiley. 1971.

A Tabela, do mesmo livro, está ilegível, mas vou procurar melhorar. 

No comments: