Saturday, March 08, 2014

Máxima verossimilhança

Os pesquisadores usam dados de amostras para estimar os parâmetros das populações de onde essas amostras foram retiradas. Há vários métodos que produzem bons estimadores, mas vamos dar aqui ideia sobre um desses métodos, o de máxima verossimilhança (method of maximum likelihood).

Imagine uma urna com grande quantidade de bolas verdes e amarelas 1. Você não sabe qual das cores ocorre com maior frequência, mas sabe que são três bolas de determinada cor para cada bola da outra cor. Se a razão de cores for três bolas verdes para cada amarela


a probabilidade p de alguém tirar uma bola verde dessa urna é ¾. Se a razão de cores for uma bola verde para cada três bolas amarelas


a probabilidade p de alguém tirar uma bola verde dessa urna é ¼. 

Se forem retiradas n bolas da urna sempre com reposição, o número x de bolas verdes que podem ocorrer é dado pela distribuição binomial.
                          
para x=0,1,2...n
                          

Sabemos que a probabilidade de ocorrer uma bola verde só pode ser

                                

                                     p = ¼ ou p = ¾.     


Você retira n = 3 bolas da urna, com reposição. Podem ocorrer, quando se retiram três bolas dessa urna, zero, 1, 2 ou 3 bolas verdes. Estimar o valor de p fica fácil porque você tem apenas de escolher entre dois números, p = ¼ ou p = ¾. Como você faz essa escolha?

Veja, na Tabela 1, as probabilidades associadas à ocorrência de x = 0,1, 2, ou 3 bolas verdes para n = 3 retiradas, em função dos dois valores possíveis de p.

Tabela 1: Probabilidades associadas à ocorrência de x bolas verdes para n =3 retiradas em função de dois valores de p
  
Se você não tirar bola verde (x = 0), a estimativa p = ¼ seria preferível. Por quê? É mais provável ocorrer x = 0 (nenhuma bola verde) quando é p = ¼ do que é ¾.  Veja a Tabela 1: a probabilidade de ocorrer x = 0 é 27/64 se p = ¼; é 1/64 se p= ¾.  Então, você diria:

·  Se sair uma ou nenhuma bola verde (x = 0 ou 1), então p = ¼;
·  Se saírem duas ou três bolas verdes (x = 2 ou 3), então p =¾.

No exemplo que acabamos de ver, p só pode ter um de dois valores. Você estimou p usando o estimador de máxima verossimilhança, isto é, aquele que torna máxima a probabilidade de ocorrer o que foi observado. A idéia subjacente à estimativa da máxima verossimilhança, na distribuição binomial, embora seja simples, às vezes é difícil de aplicar2. Mas você toma, como estimativa do parâmetro p, o valor que torna mais provável acontecer o que foi observado.

Mas pense agora em outra situação: um experimento produz apenas sucessos (S) ou falhas (F). A população toda não pode ser observada, o que significa que o parâmetro nunca será conhecido. Mas você pode observar amostras. Uma amostra poderia resultar em S, S, F, F, S, F. Uma estimativa intuitiva para o parâmetro p de sucessos em um ensaio que produz apenas sucessos ou falhas é a proporção de sucessos observados em muitas tentativas. Neste exemplo (em que o número de observações é propositalmente para facilitar a exposição),
Esta é sua estimativa de máxima verossimilhança, porque para n = 6 e x = 3, é mais provável que o número de sucessos nessa distribuição seja 3/6. Veja a Tabela 2.
 Tabela 2: Probabilidades associadas à ocorrência de x sucessos em amostras de tamanho n =6
  
 O estimador de máxima verossimilhança de p (prova-se isto matematicamente) é a proporção de sucessos em n tentativas.


Referências
1.           Mood A. M. e Graybill, F. A. Introduction to the theory of statistics. McGraw. 1963. P178-180.
2.            MstatArray Programming Language  www.mcardle.wisc.edu/mstat/help/.../Notes-03.html
 Veja, sobre distribuição binomial:







No comments: