Thursday, August 09, 2018

Kolmogorov-Smirnov: teste a aderência


                                             Função de distribuição empírica

Uma das principais finalidades da Estatística é estimar propriedades desconhecidas da população. Tais propriedades são, necessariamente, numéricas: proporções, médias etc.. As estimativas devem ser obtidas de amostras aleatórias, se a intenção do pesquisador for fazer inferência estatística. Vamos tratar aqui a função de distribuição empírica (empirical distribution function –EDF), um estimador diferente.

   Lembre-se de que a verdadeira função de distribuição de uma variável aleatória geralmente é desconhecida. Mas você pode ter alguma ideia de qual seria essa função de distribuição. Então use essa ideia como aproximação da função verdadeira.

   De qualquer forma, para ter uma boa ideia sobre a verdadeira função de distribuição de uma variável aleatória X convém observar n valores dessa variável, isto é, X1, X2,...Xn  e depois desenhar um gráfico S(x), para usar como estimativa da função de distribuição desconhecida F(x) que você presume (é sua hipótese), seja a função de distribuição de X. Mas como?

EXEMPLO

 É dado o tempo de corrida, em minutos, de cinco pessoas em determinado percurso:


Para desenhar o gráfico:

·         Coloque os dados em coluna em uma planilha e ordene.
·         Na coluna ao lado, escreva a proporção acumulada para cada dado na amostra. No exemplo, n = 5. Cada dado aparece na proporção de 1/5. Veja o que você obtém:


·         Construa um gráfico, colocando os valores observados no eixo das abscissas e as proporções acumuladas no eixo das ordenadas. Todas as proporções (que estão assinaladas) são iguais a 1/5.
                                           Figura 1

·         A função de distribuição empírica de S(x) é o número de valores amostrais menores ou iguais a x.

   A Figura 1 é uma apresentação de S(x), mas qualquer outra amostra provavelmente produziria outro gráfico, que seria diferente do que você fez. Isso mostra a natureza aleatória de S(x).

    Em certo sentido, S(x) é uma variável aleatória, porém é mais razoável dizer que S(x) é uma função aleatória porque é, de fato, uma função. Os valores observados produzem gráficos e não números. S(x) é uma função de distribuição empírica que estima a verdadeira função de distribuição da variável aleatória (chamaremos esta de função de distribuição da população) para distinguir da S(x).

                      O TESTE DE ADERÊNCIA DE KOLMOGOROV

Dados

X1, X2, ... Xn  são os dados de uma amostra aleatória de tamanho n com função de distribuição desconhecida, que indicaremos por F(x).

Hipótese

Seja F*(x) uma função de distribuição conhecida que você assumiu como sendo a de seus dados. Para um teste bilateral, sua hipótese é:
H0: F(x) = F*(x),                para todo x, de - ∞ a + ∞.
H1: F(x) ≠ F*(x)                 para pelo menos um valor de x.

S(x) é a função de probabilidade acumulada dos dados. A estatística de teste depende da hipótese formulada.

Para um teste bilateral: Seja a estatística de teste T a maior (o supremo, indicado por “sup”) distância vertical entre S(x) e F*(x).


que se lê “T é igual ao supremo do valor absoluto da diferença F*(x) - S(x) para todo x”.

Regra de decisão

Rejeite H0 no nível de significância a se T exceder o quantil w(1-a)  dado na Tabela de quantis para a estatística de teste de Kolmogorov, que está no final desta postagem. Essa tabela é exata somente se F*(x) for contínua. Caso contrário, os quantis levam a um teste conservador.

Exemplo

 Foram obtidos

0,503
0,203
0,477
0,710
0,581
0,329
0,480
0,554
0,382





















A hipótese é a de que a função de distribuição é uniforme. A função de distribuição acumulada está na Figura 2:

                         F*(x)= 0               para x < 0
                                  = x               para 0 ≤ x < 1
                                   = 1               para 1 ≤ x

                                                     Figura 2


Formalmente

H0: F(x) = F*(x),                para todo x.
H1: F(x) ≠ F*(x)                 para pelo menos um valor de x.

em que F(x) é a função de distribuição desconhecida e F*(x) refere-se à distribuição uniforme já definida.

    Para um teste bilateral, a região de rejeição a = 0,05 (logo, p = 1- a =0,95) para n = 10, corresponde a valores de T maiores do que o quantil 0,409. 

    O valor de T é obtido no gráfico que apresenta a função de distribuição empírica S(x) sobreposta à função de distribuição F*(x), conforme a hipótese.
                                                   Figura 3
                                             

A maior distância vertical entre os gráficos é 0,290 (em vermelho na Figura 3), quando x=0,710.

Veja que para x=0,710, a função de distribuição acumulada F*(x) =x=0,710. Para x=0,710, a função de distribuição acumulada S(x) =1,00.  

Escreve-se:


         Como T=0,290 é menor que 0,409, não se rejeita a hipótese da nulidade.


O texto foi escrito com base em 
Conover,W. J. Practical Nonparametric Statistics. Wiley. 1971.

A Tabela, do mesmo livro, está ilegível, mas vou procurar melhorar. 

Monday, August 06, 2018

ANOVA: o modelo mais simples


A finalidade da experimentação é comparar os efeitos de diferentes tratamentos. Nas ciências agrárias, é usual comparar diversos tratamentos ou situações e utilizar, para a avaliação estatística, uma análise de variância. No entanto, para que os resultados da análise de variância sejam válidos, é preciso que os erros sejam variáveis aleatórias independentes com distribuição normal de média zero e variância constante. Mas o que são erros? Antes de definir erro, convém entender como se avaliam os efeitos de tratamentos.

Os efeitos dos tratamentos podem ser estimados fazendo a diferença entre suas médias e a média geral. Representando os efeitos de tratamentos por ti podemos escrever:
Há tratamentos com efeitos positivos (acima da média) e tratamentos com efeitos negativos (abaixo da média). A soma dos efeitos dos tratamentos é, evidentemente, zero. 
 Exemplo: para comparar os efeitos de quatro tratamentos (A, B, C, D) sobre a produtividade de milho, um pesquisador sorteou os tratamentos para 20 parcelas. Terminado o experimento e colhidos os resultados, o pesquisador obteve os dados apresentados na Tabela 1. As médias dos tratamentos estão no rodapé dessa tabela.

Tabela 1: Produtividade de milho em kg/100 m2 segundo o tratamento

A média geral é dada pela soma de todos os valores dividida por 20:


Para os dados da Tabela 1, as estimativas dos efeitos dos tratamentos são:


Essas estimativas estão apresentadas na Figura 1. Fica então fácil ver que, em média, o tratamento D teve o maior efeito.

    Figura 1. Estimativas dos efeitos de tratamento


Unidades experimentais que recebem o mesmo tratamento não têm, exatamente, a mesma resposta. No exemplo que estamos desenvolvendo, as parcelas de milho que receberam o mesmo tratamento apresentam produtividade diferente. Essas diferenças são explicadas pela variação, mesmo que pequena, da fertilidade do solo e da umidade entre uma parcela e outra, da variação da profundidade da semeadura, da variação da capacidade germinativa das sementes, da variação na aplicação do tratamento às parcelas, de erros de pesagem do milho colhido e outros fatores, que não foram não considerados pelo pesquisador. Há sempre variabilidade.

Então a produtividade de determinada parcela Yij é dada pela média obtida no experimento, mais o efeito do i-ésimo tratamento, acrescida de um desvio ou resíduo eij. Podemos então escrever:
Esta equação representa o que o pesquisador coletou, ou seja, os resultados do experimento que temos em mãos. Mas poderiam ser feitos outros experimentos nas mesmas condições. Se imaginarmos “infinitos” experimentos conduzidos nas mesmas condições, teríamos os valores verdadeiros – que o estatístico chama de parâmetros – da média de produtividade de milho (m) e dos efeitos de tratamentos (ti). Teríamos, também, os erros (eij) e não simplesmente os desvios, isto é, teríamos a diferença verdadeira entre um dado medido em uma parcela e a média do tratamento que essa parcela recebeu.

 Você pode até estar pensando que tudo isso são teorias e que, na verdade, todo pesquisador tem uma boa ideia da produtividade média de milho na região em que trabalha devido a sua experiência e seu conhecimento da literatura. Mas nenhum pesquisador sabe o valor exato de m. E todo pesquisador que faz um experimento para estudar o efeito de diferentes tratamentos sobre a produtividade de milho, sabe que está apenas estimando esses efeitos.

   Então, imagine um experimento inteiramente ao acaso. Os valores obtidos, ou seja, as respostas das unidades aos tratamentos seguem um modelo. São dadas pela soma de:
  • Média de todos os valores possíveis para a variável em análise, representada por  m (lê-se mi),
  • Efeito do i-ésimo tratamento sobre as unidades que receberam esse tratamento, representado por ti (lê-se tau índice i)
  • Erro” aleatório eij (lê-se épsilon índice ij).

Escrevemos:


Para que os resultados da análise de variância sejam válidos, é preciso que os erros eij sejam variáveis aleatórias independentes com distribuição normal de média zero e variância constante. Mas acabamos de ver: não conhecemos os erros. Temos apenas suas estimativas, os desvios eij.  obtidos experimentalmente.
Mas podemos usar os valores dos desvios para testar a hipótese de que os erros são variáveis aleatórias independentes com distribuição normal de média zero e variância constante. Vamos por partes. Consideraremos esses achados nossas pressuposições para proceder a uma análise de variância se pudermos aceitar – com base na nossa amostra de desvios – que os erros são


As estimativas dos erros, ou seja, os desvios, mais conhecidos como resíduos são obtidos fazendo as diferenças entre os valores observados e as médias dos tratamentos que receberam. Para os dados da Tabela 1, foram calculados os resíduos apresentados na Tabela 2.

Tabela 2- Cálculo dos resíduos dos dados apresentados na Tabela 1


  A análise de resíduos permite estabelecer se uma análise de variância dos dados apresentado na Tabela 1 é aceitável. Logo, é preciso ver como se faz a análise dos resíduos, pois é essa análise que diz se as pressuposições feitas para proceder à análise de variância são razoáveis.