Saturday, March 08, 2014

Máxima verossimilhança

Os pesquisadores usam dados de amostras para estimar os parâmetros das populações de onde essas amostras foram retiradas. Há vários métodos que produzem bons estimadores, mas vamos abordar aqui um deles: o método de máxima verossimilhança (method of maximum likelihood).

Imagine uma urna com grande quantidade de bolas verdes e amarelas1. Você não sabe qual das cores ocorre com maior frequência, mas sabe que a proporção entre elas só pode ser:

         1. Três bolas verdes para cada bola amarela e, nesse caso, a probabilidade p de alguém tirar uma bola verde dessa urna é ¾.

            2.  Uma bola verde para cada três bolas amarelas e, então, a probabilidade p de alguém tirar uma bola verde dessa urna é ¼. 

Se forem retiradas n bolas da urna sempre com reposição, o número x de bolas verdes que podem ocorrer segue a distribuição binomial. Neste caso, x pode assumir os valores x = 0, 1, 2, …, n com p =¼ ou p = ¾. A função de distribuição da binomial é    

                                         
 
 Você retira n = 3 bolas da urna, com reposição. Podem ocorrer, quando se retiram três bolas dessa urna, zero, 1, 2 ou 3 bolas verdes. Estimar o valor de p fica fácil porque você precisa escolher entre apenas dois valores: p = ¼ ou p = ¾. Como você faz essa escolha?

Veja a Tabela 1, que apresenta as probabilidades associadas à ocorrência de x = 0, 1, 2, ou 3 bolas verdes para n = 3 retiradas, em função dos dois valores possíveis de p.


Tabela 1: Probabilidades associadas à ocorrência de x bolas verdes para n = 3 retiradas, considerando dois valores possíveis de p

 

Valor de p

Nº de bolas verdes na amostra

0

1

2

3

p =¾

1/64

9/64

27/64

27/64

p = ¼

27/64

27/64

9/64

1/64

 

Se não sair bola verde (x = 0), a estimativa p = ¼ seria preferível. Por quê? É mais provável ocorrer x = 0 (nenhuma bola verde) se p = ¼ do que se p = ¾.  Veja a Tabela 1: se p = ¼, a probabilidade de ocorrer x = 0 é 27/64, mas se p=¾, a probabilidade de ocorrer x = 0 é 1/64. Então, você diria:


·  Se sair uma ou nenhuma bola verde (x = 0 ou 1), então p = ¼;

·  Se saírem duas ou três bolas verdes (x = 2 ou 3), então p =¾.


Você estimou p usando o estimador de máxima verossimilhança, isto é, aquele que torna máxima a probabilidade de ocorrer o valor obtido. Mas o exemplo utilizado era propositalmente fácil: p só podia assumir um de dois valores possíveis.

Na distribuição binomial, a estimação por máxima verossimilhança pode ser, às vezes, difícil de aplicar2, embora seja conceitualmente simples. De maneira geral, a estimativa do parâmetro p é obtida pela maior proporção do valor mais registrado. 

Considere, agora, outra situação: um experimento no qual os resultados possíveis são apenas sucessos (S) ou falhas (F). Não é possível observar toda a população, o que significa que o parâmetro nunca será conhecido. Mas você pode observar amostras. Uma amostra poderia resultar em S, S, F, F, S, F.

 Uma abordagem intuitiva para estimar o parâmetro p, que representa a probabilidade de sucesso em um ensaio com apenas dois resultados possíveis, é calcular a proporção de sucessos observados em várias tentativas. No exemplo apresentado (em que o número de observações é propositalmente pequeno para facilitar a exposição), o cálculo seria:

Esta é a estimativa de máxima verossimilhança, porque para n = 6 e x = 3, o valor mais provável para a proporção de sucessos nessa distribuição seja 3/6. Consulte a Tabela 2 para as probabilidades associadas à ocorrência de x sucessos em amostras de tamanho 6.
Tabela 2: Probabilidades associadas à ocorrência de x sucessos em amostras de tamanho n =6

O estimador de máxima verossimilhança para p (pode ser demonstrado matematicamente) é a proporção de sucessos observados em n tentativas.

Referências


1.Mood A. M. e Graybill, F. A. Introduction to the theory of statistics. McGraw. 1963. P178-180.

2.MstatArrayProgrammingLanguage  www.mcardle.wisc.edu/mstat/help/.../Notes-03.html





No comments: