Wednesday, January 27, 2016

Tamanho de amostra para estimar uma proporção


Como se determina o tamanho da amostra? Muitas vezes, o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas. De qualquer modo, as amostras não devem ser muito grandes, porque isso seria perda de recursos. Também não devem ser muito pequenas, porque o resultado do trabalho seria de pouca utilidade.

 

O certo é calcular o tamanho da amostra por critério estatístico. Depois, o pesquisador precisa considerar o custo e o tempo para examinar cada unidade. Também precisa considerar o que é usual na área. E se seu tempo for curto ou seu orçamento pequeno para o tamanho de amostra calculado, refaça seu projeto de pesquisa e tente enquadrar nele uma pesquisa menos ambiciosa.

 

Vamos mostrar aqui, por meio de um exemplo1, como calcular o tamanho de amostra para estimar uma proporção populacional (parâmetro).

 

Imagine que um antropólogo está estudando os habitantes de uma ilha isolada e que, entre outras coisas, quer estimar a porcentagem de pessoas dessa ilha com sangue tipo O. Quantas pessoas (tamanho da amostra) devem ser examinadas? O tamanho da amostra pode ser determinado por uma equação. No entanto, essa equação não pode ser resolvida sem resposta para algumas questões.

 

A primeira questão que um estatístico faria ao antropólogo seria a seguinte: “Com que precisão quer estimar a porcentagem de pessoas da ilha com sangue tipo O?”. Imagine que o antropólogo diz ficar satisfeito com uma margem de erro de d = ±5%. Isso significa que, se 43% das pessoas da amostra tiverem sangue tipo O, a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar no intervalo 43% ± 5%, isto é, entre 38% e 48%.

                

 Neste ponto, convém avisar o antropólogo de que, coletando uma só amostra, existe o risco de essa amostra seja pouco representativa, por puro azar. O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20. Isto significa que a probabilidade de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado é 19/20 = 0,95.  Temos então o nível de confiança: 95%.


 

Vamos indicar por P a verdadeira porcentagem de pessoas com sangue tipo O na ilha e por p a porcentagem na amostra,  que estima P. E vamos pressupor, por ora, que tenha distribuição normal em torno de P. Então cai no intervalo P ± 2s(p) em 19 de cada 20 amostras, ou seja, a probabilidade de P cair no intervalo P ± 2s(p) é 95%

                    

O antropólogo disse ficar satisfeito com uma margem de erro de ±5%. Então, tomamos, da distribuição normal, Z =1,96≈2,00. Sabemos que

 

Temos uma fórmula para calcular n, mas precisamos de uma estimativa preliminar do valor de P, que não temos, porque é exatamente esse valor que procuramos. O que fazer? O antropólogo então sugere que, com base no que sabe sobre outras populações, é razoável esperar que essa porcentagem esteja entre 40 e 60%. Ótimo, esta informação é suficiente para acharmos um tamanho de amostra. Vamos fazer P = 50% e calcular n.

É preciso, neste ponto, discutir a pressuposição de normalidade. Se n = 400 e P estiver entre 40 e 60%, a distribuição de deve ser aproximadamente normal. Mas tudo depende também do tamanho da população da ilha. Se for maior do que 8000, a fração amostrada é menor do que 5%. Então, tudo bem.

  

    1. O exemplo está em: COCHRAN, W. Sampling techniques. Nova York, Wiley, 1977.


                                                      

No comments: