Como se determina o tamanho da amostra? Muitas vezes, o tamanho da
amostra é determinado mais por considerações reais ou imaginárias a respeito do
custo de cada unidade amostrada do que por técnicas estatísticas. De qualquer modo, as amostras não devem ser muito grandes, porque isso seria perda de recursos.
Também não devem ser muito pequenas,
porque o resultado do trabalho seria de pouca utilidade.
O certo é calcular o tamanho da amostra
por critério estatístico. Depois, o pesquisador precisa considerar o custo e o tempo
para examinar cada unidade. Também precisa considerar o que é usual na área. E
se seu tempo for curto ou seu orçamento pequeno para o tamanho de amostra
calculado, refaça seu projeto de pesquisa e tente enquadrar nele uma pesquisa
menos ambiciosa.
Vamos mostrar aqui, por meio de um exemplo 1,
como calcular o tamanho de amostra para estimar uma proporção populacional (parâmetro).
Imagine que um antropólogo está estudando os habitantes de uma ilha
isolada e que, entre outras coisas, quer estimar
a porcentagem de pessoas dessa ilha com sangue tipo O. Quantas pessoas
(tamanho da amostra) devem ser examinadas? O tamanho da amostra pode ser
determinado por uma equação. No entanto, essa equação não pode ser resolvida
sem resposta para algumas questões.
A primeira questão que um estatístico faria ao antropólogo seria a
seguinte: “Com que precisão quer estimar a
porcentagem de pessoas da ilha com sangue tipo O?”. Imagine que o
antropólogo diz ficar satisfeito com uma margem de erro de ±5%. Isso significa
que, se 43% das pessoas da amostra
tiverem sangue tipo O, a verdadeira
porcentagem de pessoas com sangue tipo O na ilha deverá estar no intervalo
43% ± 5%, isto é, entre 38% e 48%.
Neste ponto, convém avisar o antropólogo de que, coletando uma só
amostra, existe o risco de essa amostra seja pouco representativa, por puro
azar. O antropólogo então concorda em admitir a probabilidade de uma amostra
errada em cada 20. Isto significa que a probabilidade de obter a verdadeira
porcentagem de sangue tipo O dentro do intervalo calculado é 19/20 = 0,95. Temos então o nível de confiança: 95%.
Vamos indicar por P a
verdadeira porcentagem de pessoas com sangue tipo O na ilha e por p a porcentagem na amostra. E vamos
pressupor, por ora, que p tenha
distribuição normal em torno de P.
Então P cai no intervalo P ± 2s(p)
em 19 de cada 20 amostras, ou seja, a probabilidade de P cair no intervalo P ± 2s(p) é 95%
Temos uma fórmula para calcular n, mas precisamos do valor de P, que não temos, porque é exatamente esse valor que procuramos. O que fazer? O antropólogo então sugere que, com base no que sabe sobre outras populações, é razoável esperar que essa porcentagem esteja entre 40 e 60%. Ótimo, esta informação é suficiente para acharmos um tamanho de amostra. Vamos fazer P = 50% e calcular n.
É preciso, neste ponto, discutir a pressuposição de normalidade. Se n = 400 e P estiver entre 40 e 60%, a distribuição de p deve ser aproximadamente normal. Mas tudo depende também do
tamanho da população da ilha. Se for maior do que 8000, a fração amostrada é
menor do que 5%. Então, tudo bem.
1.
O exemplo está
em: COCHRAN, W. Sampling techniques. Nova York, Wiley, 1977.
Veja também;