Função de distribuição
empírica
Uma das principais finalidades da Estatística é estimar propriedades
desconhecidas da população. Tais propriedades são, necessariamente, numéricas:
proporções, médias etc.. As estimativas devem ser obtidas de amostras
aleatórias, se a intenção do pesquisador for fazer inferência estatística. Vamos
tratar aqui a função de distribuição
empírica (empirical distribution
function –EDF), um estimador diferente.
Lembre-se de que a verdadeira função de distribuição de uma
variável aleatória geralmente é desconhecida. Mas você pode ter alguma ideia de
qual seria essa função de distribuição. Então use essa ideia como aproximação
da função verdadeira.
De qualquer forma, para ter uma boa ideia sobre a verdadeira função
de distribuição de uma variável aleatória X
convém observar n valores dessa
variável, isto é, X1, X2,...Xn e depois
desenhar um gráfico S(x), para usar como estimativa da função
de distribuição desconhecida F(x) que você presume (é sua hipótese),
seja a função de distribuição de X. Mas
como?
EXEMPLO
É dado o tempo de
corrida, em minutos, de cinco pessoas em determinado percurso:
Para desenhar o gráfico:
·
Coloque os dados
em coluna em uma planilha e ordene.
·
Na coluna ao
lado, escreva a proporção acumulada para cada dado na amostra. No exemplo, n = 5. Cada dado aparece na proporção de
1/5. Veja o que você obtém:
·
Construa um
gráfico, colocando os valores observados no eixo das abscissas e as proporções acumuladas
no eixo das ordenadas. Todas as proporções (que estão assinaladas) são iguais a
1/5.
Figura 1
·
A função de
distribuição empírica de S(x) é o número de valores amostrais
menores ou iguais a x.
A Figura 1 é uma apresentação de S(x), mas qualquer outra
amostra provavelmente produziria outro gráfico, que seria diferente do que você
fez. Isso mostra a natureza aleatória de S(x).
Em certo sentido, S(x)
é uma variável aleatória, porém é mais razoável dizer que S(x) é uma função aleatória porque é, de fato, uma função.
Os valores observados produzem gráficos e não números. S(x) é uma função de distribuição empírica que estima
a verdadeira função de distribuição da variável aleatória (chamaremos esta de função de distribuição da população)
para distinguir da S(x).
O TESTE DE ADERÊNCIA DE KOLMOGOROV
Dados
X1, X2,
... Xn são os dados de uma amostra aleatória de
tamanho n com função de distribuição
desconhecida, que indicaremos por F(x).
Hipótese
Seja F*(x) uma função de distribuição
conhecida que você assumiu como sendo a de seus dados. Para um teste bilateral,
sua hipótese é:
H0: F(x) = F*(x), para todo x, de - ∞ a + ∞.
H1: F(x)
≠ F*(x) para pelo
menos um valor de x.
S(x) é a função de probabilidade acumulada
dos dados. A estatística de teste depende
da hipótese formulada.
Para um teste bilateral: Seja a estatística de teste T a maior (o supremo, indicado por
“sup”) distância vertical entre S(x) e F*(x).
que se lê “T é igual ao supremo
do valor absoluto da diferença F*(x) - S(x) para todo x”.
Regra de decisão
Rejeite H0 no nível de
significância a se T exceder o quantil w(1-a) dado na Tabela de quantis para a estatística de teste de Kolmogorov, que
está no final desta postagem. Essa tabela é exata somente se F*(x)
for contínua. Caso contrário, os quantis levam a um teste conservador.
Exemplo
Foram obtidos
0,503
|
0,203
|
0,477
|
0,710
|
0,581
|
0,329
|
0,480
|
0,554
|
0,382
|
|
|
|
|
|
|
|
|
|
|
A hipótese é a de que a função de
distribuição é uniforme. A função de distribuição acumulada está na Figura 2:
F*(x)= 0 para x < 0
= x para 0 ≤ x < 1
= 1 para 1 ≤ x
Figura 2
Formalmente
H0: F(x) = F*(x), para todo x.
H1: F(x)
≠ F*(x) para pelo
menos um valor de x.
em que F(x) é a função de
distribuição desconhecida e F*(x) refere-se à distribuição uniforme já
definida.
Para um teste bilateral, a
região de rejeição a = 0,05 (logo, p = 1- a =0,95) para n = 10, corresponde
a valores de T maiores do que o
quantil 0,409.
O valor de T é obtido no gráfico que apresenta a função de distribuição
empírica S(x) sobreposta à função de distribuição F*(x), conforme a
hipótese.
Figura 3
A maior distância vertical
entre os gráficos é 0,290 (em vermelho na Figura 3), quando x=0,710.
Veja que para x=0,710, a função de distribuição
acumulada F*(x) =x=0,710. Para x=0,710, a função de distribuição
acumulada S(x) =1,00.
Escreve-se:
Como T=0,290
é menor que 0,409, não se rejeita a hipótese da nulidade.
O texto foi escrito com base em
Conover,W. J. Practical Nonparametric Statistics. Wiley. 1971.
A Tabela, do mesmo livro, está ilegível, mas vou procurar melhorar.